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内 容 提 要 

本 书 是 一 部 UNIX 网 络 编程 的 经 典 之 作 ! 书 中 全 面 深入 地 介绍 了 如 
何 使 用 套 接 字 API 进 行 网 络 编程 。 全 书 不 但 介绍 了 基本 编程 内 容 ， 还 涵 
盖 了 与 套 接 字 编 程 相关 的 高 级 主题 ， 对 于 客户 /服务 器 程序 的 各 种 设计 
方法 也 作 了 完整 的 探讨 ， 最 后 还 深入 分 析 了 流 这 种 设备 驱动 机 制 。 

本 书 内 容 详 尽 且 具 权 威 性 ， 几 乎 每 章 都 提供 精 选 的 习题 ， 并 提供 了 
部 分 习题 的 答案 ， 是 网 络 研 究 和 开发 人 员 理想 的 参考 书 。 
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本 书 的 第 1 版 于 1990 年 问世 ， 并 迅速 成 为 程序 员 学 习 网 络 编程 的 权 
威 参 考 书 。 时 至 今日 ， 计 算 机 网 络 技术 已 发 生 了 翻天 履 地 的 变化 。 只 要 
看 看 第 1 版 给 出 的 用 于 征集 反馈 意见 的 地 址 〈“uunetthsitnetbook”) 就 一 
目 了 然 了 。 《有 多 少 读者 能 看 出 这 是 20 世 纪 80 年 代 很 流行 的 UUCP 拨 号 
网 络 的 地 址 ? ) 

现在 UUCP 网 络 已 经 很 罕见 了 ， 而 无 线 网 络 等 新 技术 则 变 得 无 处 不 
E! 在 这 种 背景 下 ， 新 的 网 络 协议 和 编程 范 型 业已 开发 出 来 ， 但 程序 员 
却 否 于 找 不 到 一 本 好 的 参考 书 来 学 习 这 些 复杂 的 新 技术 。 

这 本 书 填补 了 这 一 空白 。 拥 有 本 书 旧版 的 读者 一 定 想 要 一 个 新 的 版 
本 来 学 习 新 的 编程 方法 ， 了 解 IPv6 等 下 一 代 协 议 方 面 的 新 内 容 。 所 有 人 
都 非常 期 待 本 书 ， 因 为 它 完美 地 结合 了 实践 经 验 、 历 史 视 角 以 及 在 本 领 
域 浸 淫 多 年 才能 获得 的 透彻 理解 。 

阅读 本 书 是 一 种 人 享受， 我 收获 左 丰 。 相 信 大 家 定 会 有 同感 。 

Sam Leffler 





























概述 

本 书面 同 的 读者 是 那些 希望 自己 编写 的 程序 能 使 用 称 为 套 接 字 
(socket) 的 API 进 行 彼此 通信 的 人 。 有 些 读 者 可 能 已 经 非常 熟悉 套 接 字 
了 ， 因 为 这 个 模型 几乎 已 经 成 了 网 络 编程 的 同义词 ， 但 有 些 读者 可 能 仍 
需要 从 头 开始 学 习 。 本 书 想 达到 的 目标 是 癌 大 家 提供 网 络 编程 指导 。 这 
些 内 容 不 仅 适 用 于 专业 人 士 ， 也 适用 于 初学 者 ; 不 仅 适 用 于 维护 已 有 代 
码 ， 也 适用 于 开发 新 的 网 络 应 用 程序 ， 此 外 ， 还 适用 于 那些 只 是 想 了 解 
一 下 自己 系统 中 网 络 组件 的 工作 原理 的 人 。 

书 中 的 所 有 示例 都 是 在 Unix 系 统 上 测试 通过 的 真实 的 、 可 运行 的 代 
码 。 但 是 ， 考 虑 到 许多 非 Unix 的 操作 系统 也 文 持 套 接 字 API， 因 而 我 们 
选取 的 示例 与 所 讲述 的 一 般 性 概念 ， 在 很 大 程度 上 是 与 操作 系统 无 关 
的 。 几 平 每 种 操作 系统 都 提供 了 大 量 的 网 络 应 用 程序 ， 如 网 页 浏览 器 、 
电子 邮件 客户 端 、 文 件 共 享 服 务 器 等 。 我 们 按 常 规 的 划分 方法 把 这 些 应 
用 程序 分 为 客户 程序 和 服务 器 程序 ， 并 在 书 中 多 次 编写 了 相应 的 小 型 示 
例 。 

面向 Unix 介 绍 网 络 编程 自然 免不了 要 介绍 Unix 本 身 和 TCP/IP 的 相关 
背景 知识 。 需 要 更 详尽 的 背景 知识 时 ， 我 们 会 指引 读者 查阅 其 他 书籍 。 
本 书 中 经 常 提 到 以 下 4 本 书 ， 我 们 将 其 简 记 如 下 。 

APUE: Advanced Programming in the UNIX Environment [Stevens 
19921. 

TCPv1: TCP/IP Illustrated, Volume 1 [Stevens 1994]. 

















TCPv2: TCP/IP Illustrated, Volume 2 [Wright and Stevens 1995]. 

TCPv3: TCP/IP Illustrated, Volume 3 [Stevens 1996] 

其 中 TCPv2 包 含 了 与 本 书 内 容 密切 相关 的 细节 ， 它 描述 并 给 出 了 和 套 
接 字 API 中 网 络 编程 函数 (socket、bind、connect 等 ) 的 真实 4.4BSD 实 
现 。 如 果 已 经 理解 某 个 特性 的 实现 ， 那 么 在 应 用 程序 中 使 用 该 特性 就 更 

意义 了 。 

与 第 2 版 的 区 别 

从 20 世 纪 80 年 代 开 始 ， 套 接 字 就 差不多 是 现在 这 个 样子 了 。 时 至 今 
日 ， 套 接 字 仍然 是 网 络 API 的 首选 ， 其 最 初 的 设计 的 确 值得 称道 。 因 
此 ， 当 读者 发 现 我 们 对 出 版 于 1998 年 的 第 2 版 又 做 了 不 少 改动 时 ， 可 能 

会 党 得 惊讶 。 本 书 中 所 做 的 改动 归纳 如 下 。 

新 版 本 包含 了 IPv6 的 最 新 信息 恩 。 在 第 2 版 出 版 时 ，IPV6 尚 处 于 草案 
阶段 ， 这 些 年 来 已 经 有 所 发 展 。 

更 新 了 全 部 函数 和 示例 的 描述 ， 以 有 反映 最 新 的 POSIX 规 范 (POSIX 
1003.1-2001) ， 即 Single Unix Specification Version 3. 

删 去 了 X/Open 传 输 接 口 XTD 的 内 容 。 这 个 API 已 经 不 常用 了 ， 
连 最 新 的 POSIX 规范 也 不 再 提 到 。 

删 去 了 事务 TCP 协 议 〈TATCP) WAR. 

新 增 了 三 章 用 于 描述 一 种 相对 较 新 的 传输 协议 一 一 SCTP。 这 个 可 
笔 的 面 癌 消息 的 协议 能 够 在 两 个 端点 之 间 提 供 多 个 流 ， 并 为 多 归属 技术 
提供 传输 层 文 持 。 该 协议 最 初 是 为 了 在 因特网 上 传输 电话 信号 而 设计 
的 ， 但 它 的 一 些 特 性 可 以 用 于 许多 应 用 。 

新 增 一 章 摘 述 密 钥 管理 套 接 字 ， 该 套 接 字 可 用 于 网 际 协议 安全 
(IPsec) 和 其 他 网 络 安全 服务 。 

第 2 版 中 使 用 的 机 器 及 Unix 变 体 都 授 最 新 版 本 更 新 ， 示 例 也 根据 机 
如 的 特性 做 了 修改 。 许 多 情况 下 ， 修 改 示 例 是 因为 操作 系统 厂商 修正 7 了 
程序 缺陷 或 者 新 增 了 特性 。 但 读者 可 以 想见 ， 新 的 缺陷 总 能 不 时 地 被 发 























现 。 本 书 中 用 于 测试 示例 的 机 器 如 下 : 

ER 10.2.6 的 Apple Power PC; 
行 HP-UX 11i 的 HP PA-RISC; 
运行 AIX 5.1 的 IBM Power PC; 
运行 FreeBSD 4.8 的 Intel x86; 
运行 Linux 2.4.7 的 Intel x86; 
运行 FreeBSD 5.1 的 Sun SPARC; 
运行 Solaris 9 的 Sun SPARC. 

这 些 机 器 的 具体 用 法 见 图 1-16。 

本 系列 的 第 2 卷 《UNIX 网 络 编程 进程 间 通 信 》”) 基于 本 卷 
的 内 容 进 一 步 讨 论 了 消息 传递 、 同 步 、 共 享 内 存 及 远程 过 程 调用 。 

如 何 使 用 本 书 

本 书 既 可 以 作为 网 络 编程 的 教程 ， 也 可 以 作为 有 经 验 的 程序 员 的 参 
考 书 。 用 作 网 络 编程 的 教程 或 入 门 级 教材 时 ， 重 点 应 放 在 第 二 部 分 (第 
3 章 人 至 第 11 章 ) ， 然 后 可 以 看 看 其 他 感 兴趣 的 主题 。 第 二 部 分 包含 了 
TCP 和 UDP 的 基本 套 接 字 函数 ， 以 及 SCTP、LIO 多 路 复 用 、 和 套 接 字 选 项 
和 基本 名 字 与 地 址 的 转换 。 所 有 读者 都 应 该 阅读 第 1 章 ， 尤 其 是 1.4 市 ， 

介绍 了 一 些 贯 穿 全 书 的 包 囊 函数 。 读 者 可 以 根据 自身 的 知识 背景 ， 选 读 

第 2 章 ， 或 许 还 有 附录 A。 第 三 部 分 的 多 数 章 节 可 以 彼此 独立 地 进行 阅 
读 。 

为 了 方便 读者 把 本 书 作 为 参考 书 ， 本 书 提 供 了 完整 的 全 文 索引 ， 并 
在 最 后 几 页 总 结 了 每 个 函数 和 结构 的 详细 描述 在 正文 中 的 哪里 可 以 找 
到 。 为 了 给 不 按 顺 序 阅 读本 书 的 读者 提供 方便 ， 我 们 在 全 书 中 为 相关 主 
题 提 供 了 大 量 的 交叉 引用 。 

源 代 码 与 勘误 

书 中 所 有 示例 的 源 代码 可 以 从 www.unpbook.com 获 得 [1] 。 学 习 网 
络 编程 的 最 好 方法 就 是 下 载 这 些 程序 ， 对 其 进行 修改 和 改进 。 只 有 这 样 
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实际 编写 代码 才能 深入 理解 有 关 概 念 和 方法 。 每 章 末 尾 提 供 了 大 量 的 习 
题 ， 大 部 分 在 附录 E 中 给 出 答案 。 

本 书 的 最 新 勘误 表 也 可 以 在 上 述 网 站 获取 。 
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[11. 书 中 所 有 示例 的 源 代码 也 可 以 从 图 灵 网 站 Cwww.turingbook.com ) 
本 书 网 页 免费 注册 下 载 。 编者 注 





第 一 部 分 简介 和 TCP/IP 
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1.1 概述 


要 编写 通过 计算 机 网 络 通 信 的 程序 ， 首 先 要 确定 这 些 程序 相互 通信 
所 用 的 协议 Cprotocol) 。 在 深入 设计 一 个 协议 的 细节 之 前 ， 应 该 从 高 
层次 决断 通信 由 哪个 程序 发 起 以 及 响应 在 何 时 产生 。 举 例 来 说 ， 一 般 认 
为 Web 服 务 器 程序 是 一 个 长 时 间 运 行 的 程序 〈 即 所 谓 的 守护 程序 ， 
daemon) ， 它 只 在 啊 应 来 自 网 络 的 请 求 时 才 故 送 网 络 消 明 。 协 议 的 男 一 
端 是 Web 客 户 程 序 ， 如 某 种 浏览 器 ， 与 服务 器 进程 的 通信 总 是 由 客户 进 
程 发 起 。 大 多 数 网 络 应 用 束 是 按照 划分 成 客户 (dlient〉 和 服务 器 
(server) [1] 来 组 织 的 。 在 设计 网 络 应 用 [2] 时 ， 确 定 总 是 由 客户 发 起 
请 求 往 往 能 够 简化 协议 和 程序 [3] 本 号 。 当 然 一 些 较为 复杂 的 网 络 应 用 
还 需要 异步 回调 (asynchronous callback) 通信 ， 也 就 是 由 服务 器 向 客户 
发 起 请 求 消 息 。 然 而 坚持 采纳 图 1-1 所 示 的 基本 客户 /服务 器 模型 的 网 络 


应 用 毕 竞 要 普通 得 多 。 























应 用 协议 
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图 1-1 网 络 应 用 : 客户 和 服务 器 





通常 客户 每 次 只 与 一 个 服务 器 通信 ， 不 过 以 使 用 web 浏览 器 为 例 ， 
我 们 也 许 在 10 分 钟 内 就 可 以 与 许多 不 同 的 web 服务 器 通信 。 从 服务 器 的 
角度 来 看 ， 一 个 服务 器 同时 与 多 个 客户 通信 并 不 稀奇 ， 见 图 1-2。 本 书 
后 面 将 介绍 知 干 种 让 一 个 服务 器 同时 处 理 多 个 客户 请 求 的 方法 。 

可 认为 客户 与 服务 器 之 间 是 通过 某 个 网 络 协 议 通 信 的 ， 但 实际 上 ， 
这 样 的 通信 通常 涉及 多 个 网 络 协 议 层 。 本 书 的 焦点 是 TCP/IP 协 议 族 ， 也 
称 为 网 际 协 议 族 。 举 例 来 襄 ，Web 客 户 与 服务 占 之 间 使 用 
TCP (Transmission Control Protocol， 传 输 控 制 协 议 ) 通信 。TCP 叉 转 而 
使 用 IP (Internet Protocol， 网 际 协议 ) 通信 ，IP 再 通过 某 种 形式 的 数据 
链 路 层 通 信 。 如 果 客 户 与 服务 器 处 于 同一 个 以 太 网 ， 束 有 图 1-3 所 示 的 
通信 层次 。 
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图 1-2 一 个 服务 器 同时 处 理 多 个 客户 的 请 求 
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传输 层 
内 核 中 的 
协议 栈 
网 络 层 
以 太 网 | _ 以 太 网 协议 _ 1 以 太 网 “| 数据 链 路 层 








驱动 程序 1 驱动 程序 


客户 和 服务 器 之 间 的 实际 数据 流 


L = 








以 太 网 
图 1-3 客户 er eee 以 太 网 中 通信 

尽管 客户 与 服务 器 之 间 使 用 某 个 应 用 协议 通信 ， 传 输 层 却 使 用 TCP 
通信 。 注 意 ， 客 户 与 服务 器 之 间 的 信息 流 在 其 中 一 端 是 问 下 通过 协议 栈 
的 ， 跨 越 网 络 后 ， 在 另 一 端 则 是 向 上 通过 协议 栈 的 。 另 外 注意 ， 客 户 和 
服务 器 通常 是 用 户 进程 ， 而 TCP 和 了 PP 协议 通常 是 内 核 中 协议 栈 的 一 部 
分 。 我 们 在 图 1-3 右 边 标 出 了 4 个 层 。 

本 书 讨论 的 协议 不 限于 TCP 和 IP。 有 些 客户 和 服务 器 改 用 
UDP (User Datagram Protocol， 用 户 数 据 报 协议 ) 而 不 是 TCP， 第 2 章 将 
详细 介绍 这 两 个 协议 。 此 外 ， 本 书 使 用 术语 “IP” 来 称谓 的 那个 协议 ， 自 
20 世 纪 80 年 代 早 期 以 来 一 直 在 使 用 ， 其 实 其 正式 名 称 是 IPv4 (IP version 
4，IP 版 本 4) 。IPv4 的 一 个 新 版 本 IPv6 (IP version 6，IP 版 本 6) 是 在 20 
世纪 90 年 代 中 期 开发 出 来 的 ， 将 来 会 取代 IPv4。 本 书 既 讨 论 使 用 IPv4 的 
网 络 应 用 程序 的 开发 ， 也 讨论 使 用 IPv6 的 网 络 应 用 程序 的 开发 。 附 录 A 
会 给 出 IPv4 和 IPv6 的 一 个 比较 ， 同 时 介绍 正文 中 将 讨论 的 其 他 协议 。 

同一 网 络 应 用 的 客户 和 服务 器 无 需 如 图 1-3 所 示 处 于 同一 个 局 域 网 
(local area network, LAN) 。 例 如， 图 1-4 展 示 了 处 于 不 同 局 域 网 中 的 


























客户 和 服务 器 ， 而 这 两 个 局 域 网 是 使 用 路 由 器 (router)〉 连接 到 广域网 
(wide area network, WAN) 的 。 
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应 用 进程 
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图 1-4 处 于 不 同 局 域 网 的 客户 主机 和 服务 器 主机 通过 广域网 连接 
路 由 器 是 广域网 的 架构 设备 。 当 今 最 大 的 广域网 是 因特网 [4] 
(Internet) 。 许 多 公司 也 构建 自己 的 广域网 ， 而 这 些 私 用 的 广域网 既 可 
以 连接 到 因特网 ， 也 可 以 不 连接 到 因特网 。 
本 章 其 余部 分 将 概述 多 个 主题 ， 这 些 主题 在 后 续 章 节 中 还 会 具体 介 





绍 。 我 们 从 一 个 尽管 简单 却 完整 的 TCP 客 户 程 序 开始 ， 它 展示 了 全 书 都 
会 过 到 的 许多 函数 调用 和 概念 。 这 个 客户 程序 只 能 在 IPV4 上 运行 ， 不 过 
我 们 会 给 出 让 它 在 IPv6 上 运行 所 需 进行 的 修改 。 更 好 的 办 法 是 编写 独立 
于 协议 的 客户 和 服务 圳 程序， 这 在 第 11 章 中 会 讨论 。 本 章 同 时 展示 一 个 
与 该 TCP 客 户 程序 配合 工作 的 完整 的 TCP 服 务 顺 程 序 。 

为 了 简化 代码 ， 我 们 对 本 书 中 要 调用 的 大 多 数 系统 函数 定义 了 各 目 
的 包 囊 函数 。 多 数 情况 下 我 们 可 以 使 用 这 些 包 右 函 数 来 检查 错误 ， 输 出 
适当 的 消 轧 ， 以 及 在 出 错时 终止 程序 的 运行 。 我 们 还 给 出 了 本 书 中 大 多 
数 例子 所 用 的 测试 网 络 、 主 机 、 路 由 费 以 及 它们 的 主机 名 、IP 地 址 和 操 














作 系 统 。 

如 今 讨 论 Unix 时 经 常 使 用 POSIX 一 词 ， 它 是 一 种 被 多 数 厂商 采纳 的 
标准 。 我 们 将 介绍 POSIX 的 历史 以 及 它 对 本 书 所 讲述 的 API 的 影响 ， 并 
介绍 该 领域 的 其 他 主要 标准 。 
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让 我 们 考虑 一 个 具体 的 例子 ， 引 入 将 在 本 书 中 过 到 的 许多 概念 和 说 
法 。 图 1-5 所 示 的 是 TCP 当 前 时 间 查 询 客户 程序 的 一 个 实现 。 该 客户 与 其 
服务 器 建立 一 个 TCP 连 接 后 ， 服 务 器 以 直观 可 读 格 式 简 单 地 送 回 当 前 时 
间 和 日 期 。 








intro/daytimetcpcli.c 





1 #include "unp.h" 


2 int 
3 main(int argc, char **argv) 


4 { 


5 int sockfd, n; 

6 char recvline [MAXLINE + 1]; 

7 struct sockaddr in servaddr; 

8 if (argc != 2) 

err quit ("usage: a.out <IPaddress>"); 

10 if ( (sockfd = socket (AF INET, SOCK STREAM, 0)) < 0) 

a be err_sys ("socket error"); 

12 bzero (&servaddr, sizeof (servaddr) ) ; 

13 servaddr.sin family = AF_INET; 

14 servaddr.sin port = htons (13); /* daytime server */ 
15 if (inet pton(AF INET, argv[1], &servaddr.sin_addr) <= 0) 
16 err quit ("inet pton error for $s", argv[1]); 

17 if (connect (sockfd, (SA *) &servaddr, sizeof (servaddr)) < 0) 
18 err sys("connect error"); 

19 while ( (n = read(sockfd, recvline, MAXLINE)) > 0) ( 
20 recvline[n] = 0; /* null terminate */ 
21 if (fputs(recvline, stdout) == EOF) 
22 err sys("fputs error"); 
23 ) 
24 Lf (më 0) 
25 err sys (read error"); 
26 exit (0): 
27 } 





intro/daytimetcpcli.c 





图 1-5 TCP 时 间 获 取 客 户 程序 

这 束 是 本 书 用 于 展示 所 有 源 代码 的 格式 。 每 个 非 空 行 都 被 编排 行 
号 。 如 稍 后 所 示 ， 代 码 正 文 讲解 部 分 一 开始 标注 该 段 代 码 起 始 与 结束 的 
行 号 。 有 的 段落 会 以 一 个 简短 的 、 描 述 性 的 醒目 标题 起 头 ， 对 所 讲解 代 
码 段 进 行 概要 说 明 。 

每 个 源 代码 段 起 始 与 结束 处 的 水 平 线 标 出 了 该 代码 段 押 在 的 源 代码 
文件 名 ， 对 于 本 例 就 是 intro 目 录 下 的 daytimetcpcli.c 文 件 
Gintro/daytimetcpclic) 。 本 书 所 有 例子 的 源 代码 都 可 免费 获得 〈 见 前 
言 ) ， 在 此 标注 它们 的 文件 名 便于 读者 找到 其 源 文 件 。 在 阅读 本 书 期 











间 ， 编 译 、 运 行 特别 是 修改 这 些 程序 是 学 习 网 络 编程 概念 的 好 方法 。 
整 本 书 中 我 们 随时 会 插入 缩 进 的 小 字号 段落 〈 如 此 处 所 示 ) 来 说 明 
实现 的 细节 和 历史 上 的 观点 。 
如 果 编 译 该 程序 生成 默认 的 a.out 可 执行 文件 后 执行 它 ， 我 们 会 得 到 
如 下 结果 : 


solaris % a.out 206.168.112.96 我 们 的 输入 
Mon May 26 20:58:40 2003 程序 的 输 


出 

当 我 们 展示 交互 的 输入 和 输出 时 ， 输 入 总 是 采用 加 粗 的 等 宽 字 体 ， 
而 计算 机 的 输出 总 是 采用 不 加 粗 的 等 宽 字 体 。 注 释 用 宋体 字 加 在 右边 。 
作为 shell 提 示 一 部 分 的 系统 名 字 〔 本 例 中 为 solaris〉 指 明 在 哪个 主机 上 
执行 该 命令 。 图 1-16 展 示 了 用 于 运行 本 书 中 大 多 数 例子 的 各 个 系统 ， 它 
们 的 主机 名 本 身 通常 就 说 明了 各 自 的 操作 系统 。 

在 这 个 短 短 27 行 的 程序 中 有 许多 细节 值得 考虑 。 这 里 我 们 简短 地 提 
一 下 ， 目 的 是 让 初次 遇 到 网 络 程序 的 读者 有 所 准备 ， 本 书后 面 会 更 详细 
地 说 明 这 些 内 容 。 

包含 头 文件 

1 包含 我 们 自己 编写 的 名 为 unp.h 的 头 文件 ， 见 D.1 节 。 该 头 文 件 包 
含 了 大 部 分 网 络 程序 都 需要 的 许多 系统 头 文 件 ， 并 定义 了 所 用 到 的 各 种 
常 值 [5] (如 MAXLINE) 。 

命令 行 参数 

2-3 ”这 是 main 函 数 的 定义 ， 其 形式 参数 就 是 命令 行 参数 。 本 书 中 

at ) 
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的 代码 假设 使 用 ANSI C 编 译 器 〈 也 称 为 ISO C 编 译 编写 。 
创建 TCP 套 接 字 
10-11 socket 函 数 创 建 一 个 网 际 (AF INET) FM 





(SOCK STREAM) 套 接 字 ， 它 是 TCP 套 接 字 的 花哨 名 字 。 该 函数 返回 
一 个 小 整数 描述 符 ， 以 后 的 所 有 函数 调用 〈 如 随后 的 connect 和 read) 就 
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站 语句 包含 3 个 操作 : 调用 socket 函 数 ， 把 返回 值 赋 给 变量 sockfd， 
再 测试 所 赋 的 这 个 值 是 否 小 于 0。 虽 然 我 们 可 以 把 该 语句 分 割 成 两 条 C 语 
4): 

sockfd = socket(AF_INET, SOCK_STREAM, 0); 

if (sockfd < 0) 

但 是 把 这 两 行 合 并 成 一 行 却 是 第 见 的 C 语 言 习 惯用 法 。 按 照 C 语 言 
的 优先 规则 《小 于 运算 符 的 优先 级 高 于 赋值 运算 符 ) ， 函 数 调用 和 赋值 
语句 外 边 的 那 对 括号 是 必需 的 。 作 为 一 种 编码 风格 ， 作 者 总 是 在 这 样 的 
两 个 左 括号 间 加 一 个 空格 ， 提 示 比 较 运 算 的 左 侧 同时 也 是 一 个 赋值 运 
算 。〈 这 种 风格 借鉴 和 目 Minix 源 代码 [Tenenbaum 1987] > ) 该 程序 稍 
后 的 while 语 句 也 使 用 相同 的 样式 。 

后 面 我 们 将 遇 到 术语 套 接 字 (socket [6] ) 的 许多 不 同 用 法 。 首 
先 ， 我 们 正在 使 用 的 API 称 为 套 接 字 API (sockets API 。 上 一 段 中 名 为 
socket 的 函数 就 是 套 接 字 API 的 一 部 分 。 上 一 段 中 我 们 还 提 到 了 “TCP 套 
接 字 ”， 它 是 “TCP 端 点 ”(TCP endpoint) 的 同义词 。 如 果 socket 函 数 调 
用 和 失败， 我 们 束 调 用 目 己 的 err_sys 函 数 放 弃 程 序 运 行 。err_sys 函 数 输出 
我 们 作为 参数 提供 的 出 错 消 息 以 及 所 发 生 的 系统 错误 的 描述 《例如 出 自 
socket 函 数 的 可 能 错误 之 一 “Protocol not supported” (WUP 
FO ) ， 然 后 终止 进程 。 这 个 函数 和 以 err_ 开头 的 其 他 知 干 个 函数 都 是 
我 们 自行 编写 的 ， 它 们 的 调用 将 贯穿 全 书 ，D.3 节 会 描述 这 些 函 数 。 

指定 服务 器 的 IP 地 址 和 端口 

1216 我 们 把 服务 器 的 IP 地 址 和 端口 号 填 入 一 个 网 际 套 接 字 地 址 结 
构 〈 一 个 名 为 servaddr 的 sockaddr ip 结构 变量 ) 。 使 用 bzero 把 整个 结构 
清 零 后 ， 置 地 址 族 为 AF_INET， 端 口号 为 13〈 这 是 时 间 获 取 服 务 器 的 众 
所 周知 端口 ， 支 持 该 服务 的 任何 TCP/IP 主 机 都 使 用 这 个 端口 号 ， 见 图 2- 
18) ，IP 地 址 为 第 一 个 命令 行 参数 的 值 (argv[1])。 网 际 套 接 字 地 址 结 











构 中 卫 地 址 和 端口 号 这 两 个 成 员 必 须 使 用 特定 格式 ， 为 此 我 们 调用 库 函 
数 htons 〈“ 主 机 到 网 络 短 整 数 ”) 去 转换 二 进 制 端口 号 ， 又 调用 库 函 数 
inet_pton 〈“ 呈 现形 式 到 数值 >) 去 把 ASCII 命 令 行 参数 〈 例 如 运行 本 例 
子 所 用 的 206.168.112.96) 转换 为 合适 的 格式 。 

bzero 不 是 一 个 ANSI “C 函 数 。 它 起 源 于 早期 的 Berkeley 网 络 编程 代 
码 。 不 过 我 们 在 整 本 书 中 使 用 它 而 不 用 ANSI C 的 memset 函 数 ， 因 为 
bzero〈 带 2 个 参数 ) 比 memset〈 带 3 个 参数 ) 更 好 记忆 。 几 乎 所 有 文 持 
套 接 字 API 的 广 商 都 提供 bzero， 如 果 没 有 ， 那 么 可 以 使 用 unp.h 头 文件 中 
提供 的 该 函数 的 宏 定 义 。 

事实 上 ， 在 TCPv3 一 书 首次 印刷 时 ， 作 者 在 10 处 出 现 memset 函 数 的 
地 方 犯 了 错 ， 互 换 了 第 二 和 第 三 个 参数 。C 编 译 器 发 现 不 了 这 个 错误 ， 
因为 这 两 个 参数 的 类 型 是 相同 的 。( 其 实 第 二 个 参数 是 int 类 型 ， 第 三 个 
参数 是 size_t， 通 常 定义 为 unsigned ”int 类型， 然而 分 别 指定 给 这 两 个 参 
数 的 值 为 Oo 和 16， 它 们 对 于 两 个 参数 的 类 型 同样 可 以 接受 。) 对 memset 
的 这 些 调用 仍然 正常 ， 不 过 没 做 任何 事 ， 因 为 待 初始 化 的 字 节 数 被 指定 
成 了 0。 程序 之 所 以 仍然 工作 是 因为 只 有 少数 套 接 字 函 数 要 求 网 际 套 接 
字 地 址 结构 的 最 后 8 个 字 节 置 0。 无 论 如 何 ， 这 确实 是 一 个 错误 ， 且 是 一 
个 通过 使 用 bzero 函 数 可 以 避免 的 错误 ， 因 为 如 果 使 用 函数 原型 ，C 编 译 
器 总 能 发 现 bzero 的 两 个 参数 被 互 换 的 错误 。 

此 处 也 许 是 你 第 一 次 遇 到 inet_pton 函 数 。 它 是 一 个 支持 IPv6 〈 详 见 
附录 A) 的 新 函数 。 以 前 的 代码 使 用 inet_addr 函 数 来 把 ASCII 点 分 十 进 制 
数 串 变 换 成 正确 的 格式 ， 不 过 它 有 不 少 局 限 ， 而 这 些 局 限 在 inet_pton 中 
都 得 以 纠正 。 如 果 你 的 系统 尚未 文 持 该 函数 ， 那 你 可 以 使 用 我 们 在 3.7 
节 中 提供 的 它 的 一 个 实现 。 

建立 与 服务 器 的 连接 

17-18 connect 函 数 应 用 于 一 个 TCP 套 接 字 时 ， 将 与 由 它 的 第 二 个 参 
数 指 问 的 套 接 字 地 址 结构 指定 的 服务 器 建立 一 个 TCP 连 接 。 该 套 接 字 地 




















址 结构 的 长 上 度 也 必须 作为 该 函数 的 第 三 个 参数 指定 ， 对 于 网 际 套 接 字 地 
址 结构 ， 我 们 总 是 使 用 C 语 言 的 sizeof 操 作 符 由 编译 器 来 计算 这 个 长 度 。 

在 头 文 件 unp.h 中 ， 我 们 使 用 #define 把 SA 定义 为 struct sockaddr, të 
就 是 通用 套 接 字 地 址 结构 。 每 当 一 个 套 接 字 函数 需要 一 个 指 癌 某 个 套 接 
字 地 址 结构 的 指针 时 ， 这 个 指针 必须 强制 类 型 转换 成 一 个 指 问 通用 套 接 
字 地 址 结构 的 指针 。 这 是 因为 套 接 字 函 数 早 于 ANSI CË, 2012280 
TEAR EL AFP AC rk He pe, ANSI C 的 void * 指 针 类 型 还 不 可 用 。 问 题 
是 “struct sockaddr” 长 达 15 个 字符 ， 往 往 造 成 源 代码 行 超出 屏 人 莫 (或 者 书 
页 ， 寿 是 排 印 在 书 上 ) 的 右边 缘 ， 因 此 我 们 把 它 缩 减 成 SA。 我 们 将 在 
解释 图 3-3 时 详细 讨论 通用 套 接 字 地 址 结构 。 

读 入 并 输出 服务 器 的 应 管 

19-25 “我们 使 用 read 函 数 读 取 服 务 器 的 应 答 ， 并 用 标准 的 IO 函数 
fputs 输 出 结果 。 [7] 使 用 TCP 时 必须 小 心 ， 因 为 TCP 是 一 个 没有 记录 边 
界 的 字 市 流 协 议 。 服 务 器 的 应 答 通 常 是 如 下 格式 的 26 字 市 字符 串 : 

Mon May 26 20:58:40 2003\r\n 

其 中 ，Y 是 ASCII 回 车 符 ，m 是 ASCII 换 行 符 。 使 用 字 节 流 协 议 的 情 
况 下 ， 这 26 个 字 节 可 以 有 多 种 返回 方式 : 既 可 以 是 包含 所 有 26 个 字 市 的 
单个 TCP 分 节 [8] ， 也 可 以 是 每 个 分 节 只 含 1 个 字 市 的 26 个 TCP 分 大 ， 还 
可 以 是 总 共 26 个 字 节 的 任何 其 他 组 合 。 通 常服 务 器 返回 包含 所 有 26 个 字 
节 的 单个 分 节 ， 但 是 如 果 数 据 量 很 大 ， 我 们 就 不 能 确保 一 次 read 调 用 能 
返回 服务 器 的 整个 应 答 。 因 此 从 TCP 套 接 字 读 取 数据 时 ， 我 们 总 是 需要 
把 read 编 写 在 某 个 循环 中 ， 当 read 人 返回 0 (表明 对 端 关闭 连 接 ) 或 负 值 
(表明 发 生 错 误 ) 时 终止 循环 。 

本 例 中 ， 服 务 器 关闭 连接 表征 记录 的 结束 。HTTP (Hypertext 
Transfer ”Protocol， 超 文本 传送 协议 ) 的 1.0 版 本 也 采用 这 种 技术 。 还 可 
以 用 其 他 技术 标记 记录 结束 。 例 如 ，SMTP (Simple Mail Transfer 
Protocol， 简 单 邮 件 传 送 协议 ) 使 用 由 ASCII 回 车 符 后 跟 换 行 符 构成 的 2 











字 节 序列 标记 记录 的 结束 ，Sun 远 程 过 程 调用 (Remote Procedure Call, 
RPC) 以 及 域名 系统 (Domain Name System, DNS) 在 使 用 TCP 承 载 应 
用 数据 时 ， 在 每 个 要 发 送 的 记录 之 前 放置 一 个 二 进 制 的 计数 值 ， 给 出 这 
个 记录 的 长 度 。 这 里 的 重要 概念 是 TCP 本 喘 并 不 提供 记录 结束 标志 : 如 
果 应 用 程序 需要 确定 记录 的 边界 ， 它 就 要 自己 去 实现 ， 已 有 一 些 常 用 的 
方法 可 供 选 择 。 

终止 程序 

26 _ exit 终止 程序 运行 。Unix 在 一 个 进程 终止 时 总 是 关闭 该 进程 所 有 
打开 的 描述 符 ， 我 们 的 TCP 套 接 字 就 此 被 关闭 。 

刚才 已 提 过 ， 本 书后 面 会 对 刚才 讲述 的 所 有 概念 深入 进行 探讨 。 





1.3 协议 无 基 性 


图 1-5 中 的 程序 是 与 IPv4 协 议 相 关 的 : 我 们 分 配 并 初始 化 一 个 
sockaddr_in 类 型 的 结构 ， 把 该 结构 的 协议 族 成 员 设 置 为 AF_INET， 并 指 
定 socket 函 数 的 第 一 个 参数 为 AF_INET。 W 

为 了 让 图 1-5 中 的 程序 能 够 在 IPv6 上 运行 ， 我 们 必须 修改 这 段 代 
码 。 图 1-6 所 示 的 是 一 个 能 够 在 IPv6 上 运行 的 版 本 ， 其 中 改动 之 处 用 加 
粗 的 等 宽 字 体 突 出 显示 。 





intro/daytimetcpcliv6.c 


1 #include "unp.h" 

2 int 

3 main(int argc, char **argv) 

ti 

5 int sockfd, n; 

6 char recvline [MAXLINE + 1]; 

7 struct sockaddr inë servaddr; 

8 if larga ic 2) 

9 err quit ("usage: a.out <IPaddress>"); 

10 if ( (sockfd = socket (AF INET6, SOCK STREAM, 0)) < 0) 
JEN err_sys("socket error"); 

12 bzero (&servaddr, sizeof (servaddr)); 

13 servaddr.sinë family = AF INET6; 

14 servaddr.sin6 port = htons(13); /* daytime server */ 
15 if (inet pton(AF INET6, argv[1], &servaddr.sin6é addr) <= 0) 
16 err quit ("inet_pton error for %s", argv[1]); 

dez if (connect (sockfd, (SA *) &servaddr, sizeof (servaddr)) < 0) 
18 err sys("connect error"); 

19 while ( (n = read(sockfd, recvline, MAXLINE)) > 0) { 
20 recvline[n] = 0; /* null terminate */ 
27 if (fputs(recvline, stdout) == EOF) 
22 err sys("fputs error"); 
23 } 
24 If (n<'0) 
25 err sys("read error"); 
26 exit (0); 
27 } 


intro/daytimetcpcliv6.c 





图 1-6 适合 于 IPv6 的 图 1-5 所 示 程 序 的 修改 版 

我 们 只 修改 了 程序 的 5 行 代码 ， 得 到 的 却 是 另 一 个 与 协议 相关 的 程 
序 : 这 回 是 与 IPv6 协 议 相 关 的 。 更 好 的 做 法 是 编写 协议 无 关 的 程序 。 图 
11-11 将 给 出 本 客户 程序 的 协议 无 关 版 本 ， 它 使 用 了 getaddrinfo 函 数 〈 由 
tcp_connect 函 数 调用 ) 。 

这 两 个 程序 的 为 一 个 不 足 之 处 是 :用户 必 须 以 点 分 十 进 制 数 格式 给 
出 服务 絮 的 IP 地 址 (如 适合 于 IPv4 版 本 的 206.168.112.219〉 。 人 们 更 习 
惯 于 用 名 字 《〈 如 www.unpbook.com) 来 代替 数字 。 我 们 将 在 第 11 章 中 讨 
论 主 机 名 与 了 地 址 之 间 以 及 服务 名 与 端口 之 间 的 转换 函数 。 我 们 特意 扒 














述 讨 论 这 些 函 数 ， 在 第 11 间 之 前 继续 使 用 IP 地 址 和 端口 号 ， 目 的 是 了 解 
我 们 必须 填写 和 碍 看 的 套 接 字 地 址 结构 的 细节 ， 避 免 被 另 一 个 函数 集 的 
细节 把 网 络 编程 的 讨论 搞 复 杂 了 。 





1.4 错误 处 理 : HERR 





任何 现实 世界 的 程序 都 必须 检查 每 个 函数 调用 是 否 返 回 错误 。 在 图 
1-5 所 Sn H, EMIR socket. inet pton, connect, read#lfputs Ki 
Boe Mikal, AAK, MAA NA cer quitëkerr systki 
数 输出 一 个 出 错 消息 并 终止 程序 的 运行 。 我 们 发 现 绝 大 多 数 情 况 下 这 正 
是 我 们 想 做 的 事 。 个 别 情 况 下 ， 当 这 些 函 数 返 回 错误 时 ， 我 们 想 做 的 事 
并 非 简单 地 终止 程序 的 运行 ， 如 图 5-12 所 示 ， 我 们 必须 检查 系统 调用 是 
否 被 中 断 了 。 

既然 发 生 错 误 时 终止 程序 的 运行 是 普遍 的 情况 ， 我 们 可 以 通过 
包 囊 函数 (wrapper function) 来 缩短 程序 。 FAME PI e më 
数 调用 ， 检 碍 返回 值 ， 并 在 发 生 错 误 时 终止 进程 。 我 们 约定 包 囊 函数 名 
是 实际 函数 名 的 首 字 母 大 写 形式 。 例 如 ， 在 语句 

sockfd = Socket(AF_INET, SOCK_STREAM, 0); 

H, KM Socket K žtsockt MORA, MELIA o 











lib/wrapsock.c 
236 int 
237 Socket (int family, int type, int protocol) 
238 { 
239 int n; 
240 if ( (n = socket (family, type, protocol)) < 0) 
241 err sys("socket error"); 
242 return (n); 
243 } 
lib/wrapsock.c 


图 1-7 socket PK BUH) WER BL 


在 本 书 中 只 要 你 过 到 一 个 首 字 母 大 写 的 函数 名 ， 它 就 是 我 们 定义 的 
某 个 包 衷 函数 。 它 调用 的 实际 函数 的 名 字 与 包 右 函数 名 相同 ， 不 过 以 对 


应 的 小 写字 母 开 头 。 

然而 在 讲解 本 书 中 提供 的 源 代 码 时 ， 我 们 总 是 指称 被 调用 的 最 低级 
别 的 函数 〈 如 socket) ， 而 不 是 包 右 函数 〈 如 Socket) 。 

这 些 包 事 函数 不 见得 多 节省 代码 量 ， 但 当 我 们 在 第 26 章 中 讨论 线程 
时 ， 将 会 发 现 线程 函数 遇 到 错误 时 并 不 设置 标准 Unix 的 errno 变 量 ， 而 是 
把 errno 的 值 作为 函数 返回 值 返 回调 用 者 。 这 意味 着 每 次 调用 以 pthread_ 
开头 的 某 个 函数 时 ， 我 们 必须 分 配 一 个 变量 来 存放 函数 返回 值 ， 以 便 在 
调用 err_sys 前 把 ermno 变 量 设 置 成 该 值 。 为 避免 引入 花 括 号 把 代码 弄 得 很 
混乱 ， 我 们 可 以 使 用 C 语 言 的 逗号 操作 符 ， 把 errno 的 赋值 与 err_sys 的 调 
用 组 合成 一 条 语句 ， 如 下 所 示 : 


int n; 











if ( (n = pthread_mutex_lock(&ndone_mutex)) != 0) 

errno = n, err, sys(''pthread mutex. lock error"); 

我 们 也 可 以 为 此 定义 一 个 新 的 错误 处 理 函 数 ， 它 取 系 统 的 错误 写作 
为 一 个 参数 ， 不 过 通过 定义 如 图 1-8 所 示 的 包 于 函数 ， 我 们 可 以 让 以 上 
这 段 代 人 码 更 为 易 读 : 

Pthread_mutex_lock(&ndone_mutex); 

SEN AP RC NAAA SS, BATT AT DA OR TUA, MAA 
PERSAR, ANE LSE PR BIRD Je FE PP VË BËRI AKPT TE o 

选择 首 字母 大 写 一 个 函数 名 作为 其 包 囊 函数 名 是 一 种 折 中 的 方法 。 
其 他 方法 也 考虑 过 ， 璧 如 给 函数 名 加 一 个 “e” 前 绥 〈 如 [Kernighan and 
Pike 1984] 一 书 第 182 页 所 示 ) ， 给 函数 名 加 一 个 “_e” 后 级 ， 等 等 。 这 
些 方 法 都 能 明显 地 提示 调用 了 其 他 函数 ， 但 我 们 的 这 种 风格 看 来 是 最 少 
分 散 注 意 力 的 。 

这 种 技术 还 有 助 于 检查 那些 错误 返回 值 通常 被 忽 上 略 的 函数 是 否 出 
错 ， 例 如 close 和 listen。 











lib/wrappthread.c 





72 void 
73 Pthread_mutex_lock (pthread_mutex_t *mptr) 
74 { 


75 int n; 

76 if ( (n = pthread_mutex_lock(mptr)) == 0) 
77 return; 

78 errno = nj 

79 err sys ('pthread mutex lock error"); 

so ) 


lib/wrappthread.c 








图 1-8 pthread_mutex_lock JE). PRA 


本 书后 面 的 例子 中 ， 除 非 必须 检查 某 个 确定 的 错误 是 否 发 生 ， 并 以 
不 同 于 终止 进程 的 其 他 某 种 方式 处 理 它 ， 否 则 束 使 用 这 些 包 囊 函数 。 书 
中 不 提供 所 有 包 囊 函数 的 源 代 码 ， 不 过 它们 是 可 以 免费 获得 的 〈 见 前 
= 

Unix errno 值 

只 要 一 个 Unix 函 数 〔( 例 如 某 个 套 接 字 函数 ) 中 有 错误 发 生 ， 全 局 变 
量 ermo 就 被 置 为 一 个 指明 该 错误 类 型 的 正 值 ， 函 数 本 身 则 通常 返回 -1。 
err_sys 人 查看 ermo 变 量 的 值 并 输出 相应 的 出 错 消息 ， 例 如 当 ermo 值 等 于 
ETIMEDOUT 时 ， 将 输出 “Connection timed out”( 连 接 超时 〉。 

errmo 的 值 只 在 函数 发 生 错误 时 设置 。 如 果 函 数 不 返回 错误 ，ermo 
的 值 束 没有 定义 。ermo 的 所 有 正 数 错误 值 都 是 党 值 ， 具 有 以 “E” 开 头 的 
全 大 写字 母 名 字 ， 并 通常 在 <sys/errno.h> 头 文件 中 定义 。 值 0 不 表示 任何 
错误 。 

在 全 局 变量 中 存放 errno 值 对 于 共享 所 有 全 局 变量 的 多 个 线程 并 不 适 
合 。 我 们 将 在 第 26 章 中 讲述 解决 这 一 问题 的 方法 。 

全 书 中 我 们 将 使 用 诸如 “connect 函 nn. 文 样 的 
句子 简明 表达 以 下 意思 : 该 函数 返回 一 个 错误 (通常 函数 返回 值 
为 -1) ， 同 时 ermo 被 置 为 指定 的 党 值 。 

















1.5 一 个 简单 的 时 间 获 AX BU HE 





我 们 可 以 编写 一 个 简单 的 TCP 时 间 获 取 服 务 器 程序 ， 它 和 1.2 节 中 的 
客户 程序 一 道 工作 。 图 1-9 给 出 了 这 个 服务 器 程序 ， 它 使 用 了 上 一 节 中 
PPE AY LSE RA. 

创建 TCP 套 接 字 

10 TCP 套 接 字 的 创建 与 客户 程序 相同 。 

把 服务 器 的 众所周知 端口 捆绑 到 套 接 字 

11-15 通过 填写 一 个 网 际 套 接 字 地 址 结构 并 调用 bind 函 数 ， 服 务 器 
的 众所周知 端口 (对 于 时 间 获 取 服 务 是 13) 被 捆绑 到 所 创建 的 套 接 字 。 
我 们 指定 IP 地 址 为 INADDR_ANY， 这 样 要 是 服务 器 主机 有 多 个 网 络 接 
口 ， 服 务 器 进程 就 可 以 在 任意 网 络 接口 上 接受 客户 连接 。 

以 后 我 们 将 了 解 怎 样 限定 服务 器 进程 只 在 单个 网 络 接口 上 接受 客户 
连接 。 











intro/daytimetcpsrv.c 


1 #include "unp.h" 
2 #include <time.h> 
3 int 


4 main(int argc, char **argv) 


int listenfd, connfd; 
struct sockaddr in servaddr; 
char buff [MAXLINE] ; 

time t ticks; 


listenfd = Socket (AF INET, SOCK STREAM, 0); 


bzero (&servaddr, sizeof (servaddr)); 

servaddr.sin family = AF_INET; 

servaddr.sin addr.s addr = htonl (INADDR ANY); 
servaddr.sin port = htons(13); /* daytime server */ 


Bind(listenfd, (SA *) &servaddr, sizeof (servaddr)); 
Listen (listenfd, LISTENQ); 


for: ( 3 7) x 
connfd = Accept (listenfd, (SA *) NULL, NULL); 
ticks = time (NULL); 
snprintf (buff, sizeof (buff), "%.24s\r\n", ctime(&ticks) ); 
Write (connfd, buff, strlen(buff)); 


Close (connfd) ; 





intro/daytimetcpsrv.c 


图 1-9 TCP 时 间 获 取 服 务 器 程序 





把 套 接 字 转 换 成 监听 套 接 字 


16 





Val listen SUE Be TREUEN TEN ERT, KRH 








户 的 外 来 连接 就 可 在 该 套 接 字 上 由 内 核 接 受 。socket、bind 和 listen 这 3 个 
调用 步骤 是 任何 TCP 服 务 吉 准备 所 谓 的 监听 描述 符 〈listening 
descriptor， 本 例 中 为 listenfd) 的 正常 步骤 。 


常 值 LISTENQ 在 我 们 的 unp.h 头 文件 中 定义 。 它 指定 系统 内 核 允 许 





在 这 个 监听 描述 符 上 排队 的 最 大 客户 连接 数 。 我 们 将 在 4.5 节 详细 说 明 
客户 连接 的 排队 。 


ys 





PË 


ZAPPER, KEME 
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某 个 客户 连接 的 到 达 并 被 内 核 接 受 。TCP 连 接 使 用 所 谓 的 三 路 握手 
(three-way handshake) 来 建立 连接 。 握 手 完毕 时 accept 返 回 ， 其 返回 值 
是 一 个 称 为 已 连接 描述 符 (connected descriptor) 的 新 描述 符 〈 本 例 中 
为 connfd) 。 该 描述 符 用 于 与 新 近 连 接 的 那个 客户 通信 。accept 为 每 个 
连接 到 本 服务 器 的 客户 返回 一 个 新 描述 符 。 

本 书 全 文采 用 的 无 限 循 环 采 用 以 下 风格 : 

for(;;){ 





} 

当前 时 间 和 日 期 是 由 库 函 数 time 返 回 的 ， 它 实际 上 返回 的 是 自 Unix 
纪元 即 1970 年 1 月 1 日 0 点 0 分 0 秒 《〈《 国 际 标准 时 间 ) 以 来 的 秒 数 。 下 一 个 
库 函 数 ctime 把 该 整数 值 转换 成 直观 可 读 的 时 间 格 式 ， 例 如 

Mon May 26 20:58:40 2003 

snprintf 函 数 在 这 个 字符 串 末 尾 添 加 一 个 回 车 符 和 一 个 回 行 符 ， 随 后 
write 函数 把 结果 字符 串 写 给 客户 。 

如 果 你 尚 不 习惯 改 用 snprintf 代 替 较 早 的 Sprintf 函 数 ， 那 么 现在 是 学 
习 的 时 候 了 。 调 用 sprintf 无 法 检查 目的 缓冲 区 是 否 溢出 。 相 反 ，snprintf 
要 求 其 第 二 个 参数 指定 目的 绥 冲 区 的 大 小 ， 因 此 可 确保 该 缓冲 区 不 洲 
出 。 

snprintf 相 对 较 晚 才 加 到 ANSI C 标 准 中 ， 在 称 为 ISO C99 的 版 本 中 引 
入 。 不 过 几乎 所 有 广 商都 把 它 作为 标准 C 函 数 库 的 一 部 分 提供 ， 而 且 另 
有 许多 免费 可 得 的 版 本 可 用 。 我 们 贯穿 全 书 使 用 snprintf， 也 推荐 你 出 于 
可 笔 性 考虑 在 自己 的 程序 中 改 用 它 来 代 蔡 Sprintf 。 

值得 注意 的 是 ， 许 多 网 络 入 侵 是 由 黑客 通过 上 友 送 数据 ， 导 致 服务 器 
对 sprintf 的 调用 使 其 缓冲 区 淤 出 而 发 生 的 。 必 须 小 心 使 用 的 函数 还 有 
gets、strcat 和 strcpy， 通 常 应 分 别 改 为 调用 fgets、strncat 和 strncpy。 蝎 好 
的 替代 函数 是 后 来 才 引 入 的 strlcat 和 strlcpy， 它 们 确保 结果 是 正确 终止 的 














字符 串 。 编 写 安全 的 网 络 程序 的 更 多 技巧 参见 | Garfinkel, Schwartz, and 
Spafford 2003] 的 第 23 章 。 

终止 连接 

22 服务 器 通过 调用 close 关 闭 与 客户 的 连接 。 该 调用 引发 正常 的 TCP 
连接 终止 序列 : 每 个 方向 上 发 送 一 个 FIN， 每 个 FIN 又 由 各 目的 对 端 确 
认 。2.6 节 将 详细 讲述 TCP 的 三 路 握手 和 用 于 终止 一 个 TCP 连 接 的 4 个 
TCP 分 组 。 

与 上 节 人 查看 客户 程序 一 样 ， 本 节 查 看 服务 器 程序 也 非常 简略 ， 具 体 
细节 留待 本 书 以 后 论述 。 有 以 下 几 点 需要 注意 。 

与 其 客户 程序 一 样 ， 这 一 服务 器 程序 也 与 IJPv4 协 议 相 关 。 我 们 将 在 
图 11-13 中 给 出 使 用 getaddrinfo 函 数 实现 的 一 个 协议 无 关 的 版 本 。 

本 服务 器 一 次 只 能 处 理 一 个 客户 。 如 果 多 个 客户 连接 差不多 同时 到 
达 ， 系 统 内 核 在 某 个 最 大 数目 的 限制 下 把 它们 排 入 队列 ， 然 后 每 次 返回 
一 个 给 accept 函 数 。 本 服务 器 只 需 调 用 time 和 ctime 这 两 个 库 函 数 ， 运 行 
速度 很 快 。 然 而 如 果 服 务 器 需 用 较 多 时 间 (譬如 说 几 秒 钟 或 一 分 钟 ) 服 
务 每 个 客户 ， 那 么 我 们 必须 以 某 种 方式 重 登 对 各 个 客户 的 服务 。 

图 1-9 中 所 示 的 服务 器 称 为 迭代 服务 器 (iterative server) ， 因 为 对 
于 每 个 客户 它 都 迭代 执行 一 次 。 同 时 能 处 理 多 个 客户 的 并 发 服务 器 
(concurrent server) 有 多 种 编写 技术 。 最 简单 的 技术 是 调用 Unix 的 fork 
PRA (AT) ， 为 每 个 客户 创建 一 个 子 进程 。 其 他 技术 包括 使 用 线程 
kë fork (26.475) ， 或 在 服务 器 启动 时 预先 fork 一 定数 量 的 子 进程 

(30.67) 。 

如 果 从 shell 命 令 行 局 动 本 例 这 样 的 一 个 服务 器 ， 我 们 也 许 想 要 它 运 
行 很 长 时 间 ， 因 为 服务 器 往往 在 系统 工作 期 间 一 直 运 行 。 这 要 求 我 们 往 
服务 占 程 序 中 添加 代码 ， 以 便 它 能 够 作为 一 个 Unix 守 护 进程 (daemon) 
能 在 后 台 运 行 且 不 跟 任 何 终端 关联 的 进程 一 一 运行 。 我 们 将 在 13.4 
节 讨 论 守 护 进 程 。 












































1.6 ù RISE NN 


员 穿 全 书 的 用 于 阐述 网 络 编程 中 使 用 的 各 种 技术 的 两 个 客户 /服务 
器 程序 示例 如 下 : 

时 间 获 取 客 户 /服务 器 程序 〈 开 始 于 图 1-5、 图 1-6 和 网 1-9) ; 

回 射 客户 /服务 器 程序 〈 开 始 于 第 5 章 ) 。 

为 了 提供 本 书 所 涵盖 不 同 主题 的 路 线 图 ， 我 们 用 下 面 4 个 表格 汇总 
了 将 要 开发 的 程序 ， 并 给 出 了 它们 的 源 代 码 所 在 的 起 始 图 号 。 图 1-10 列 
出 了 本 书 开发 的 时 间 获 取 客 户 程序 的 不 同 版 本 ， 其 中 有 两 个 版 本 前 面 已 
讲 过 。 图 1-11 列 出 了 时 间 获 取 服 务 器 程序 的 不 同 版 本 。 图 1-12 列 出 了 回 
射 客 户 程 序 的 不 同 版 本 ， 图 1-13 列 出 了 回 射 服务 器 程序 的 不 同 版 本 。 











TCP/IPv4， 协 议 相 关 

TCP/IPv6， 协 议 相 关 

TCP/IPv4， 协 议 相 关 ， 调 用 gethostbyname 和 getservbyname 
TCP， 协 议 无 天 ， 调 用 getaddrinfo 和 tcp_connect 

UDP， 协 议 无 关 ， 调 用 getaddrinfo 和 udp_client 


TCP， 使 用 非 阻塞 connect 

TCP， 协 议 相 关 ， 用 TPI 取 代 套 接 字 

TCP， 协 议 相 关 ， 产 生 sIGPIPE 

TCP， 协 议 相 关 ， 输 出 套 接 字 接收 缓冲 区 的 大 小 和 MSS 
TCP， 协 议 相 关 ， 人 允许 主机 名 (gethostbyname) 或 者 IP 地 址 
TCP， 协 议 无 关 ， 人 允许 主机 名 (gethostbyname) 


图 1-10 本 书 开 发 的 时 间 获 取 客 户 程序 的 不 同 版 本 











TCP/IPv4， 协 议 相 关 
TCP， 协 议 无 关 ， 调 用 getaddrinfo 和 tcp listen 


TCP， 协 议 无 关 ， 调 用 getaddrinfo 和 和 tcp listen 
UDP， 协 议 无 关 ， 调 用 getaddrinfo 和 udp_server 
TCP， 协 议 无 关 ， 作 为 孤立 的 守护 进程 运行 

TCP， 协 议 无 关 ， 从 inetd 守 护 进 程 派生 


图 1-11 本 书 开发 的 时 间 获 取 服 务 器 程序 的 不 同 版 本 





TCP/IPv4， 协 议 相 关 

TCP， 使 用 select 

TCP， 使 用 select 并 操纵 缓冲 区 
UDP/IPv4， 协 议 相 关 
UDP， 验 证 服务 器 的 地 址 


UDP， 调 用 connect 获 取 异 步 错误 

UDP， 使 用 sIGALRM 信 号 在 读 服务 器 的 应 答 时 启动 超时 

UDP， 使 用 select 函 数 在 读 服 务 器 的 应 答 时 启动 超时 

UDP， 使 用 so_RcvTIMEo 套 接 字 选项 在 读 服务 器 的 应 答 时 启动 超时 
Unix 域 字 节 流 ， 协 议 相关 

Unix 域 数据 报 ， 协 议 相 关 











图 1-12 本 书 开发 的 回 射 客 户 程序 的 不 同 版 本 


TCP, 
TCP, 
TCP, 
TCP, 
TCP, 
UDP, 
UDP, 


UDP, 
UDP, 
UDP, 
UDP, 


VË FA JEBEZE LO 

使 用 两 个 进程 (fork) 

建立 连接 ， 然 后 发 送 RST 

使 用 /dev/poll 达 成 多 路 复 用 

使 用 kqueue 达 成 多 路 复 用 

具有 竞争 状态 的 广播 

具有 竞争 状态 的 广播 

通过 使 用 pselect 消 除了 竞争 状态 的 广播 

通过 使 用 sigsetjmp 和 siglongjmp 消 除了 竞争 状态 的 广播 
通过 在 信号 处 理 函 数 中 使 用 IPC 消 除了 竞争 状态 的 广播 
使 用 超时 、 重 传 和 序列 号 实现 可 靠 性 


(第 2 版 ) UDP， 使 用 带 外 数据 对 服务 器 心 搏 测 试 ” 
TCP， 使 用 两 个 线程 

TCP/IPv4， 指 定 一 条 源 路 径 

UDP/IPv6， 指 定 一 条 源 路 径 





图 1-12 (ZË) 


TCP/IPv4， 协 议 相 关 

TCP/IPv4， 协 议 相 关 ， 收 拾 终止 了 的 子 进程 

TCP/I[Pv4， 协 议 相 关 ， 使 用 select， 单 个 进程 处 理 所 有 客户 
TCP/IPv4， 协 议 相 关 ， 使 用 pol1， 单 个 进程 处 理 所 有 客户 
UDP/IPv4， 协 议 相 关 

TCP 和 UDP/IPv4， 协 议 相 关 ， 使 用 select 

TCP， 使 用 标准 IO 函数 库 

Unix 域 字 节 流 ， 协 议 相 关 

Unix 域 数据 报 ， 协 议 相 关 

Unix 域 字 节 流 ， 带 有 从 客户 端 传递 赁 

ioe er 
UDP， 捆 绑 所 有 接口 地 址 

UDP， 使 用 信号 驱动 的 VO 

TCP， 每 个 客户 一 个 线程 

TCP， 每 个 客户 一 个 线程 ， 可 移植 的 参数 传递 
TCP/IPv4， 输 出 接收 到 的 源 路 径 

UDP/IPv6， 输 出 并 反 转 接收 到 的 源 路 径 

UDP， 使 用 icmpd 接 收 异 步 错 误 

UDP， 捆 绑 所 有 接口 地 址 


图 1-13 本 书 开发 的 回 射 服 务 器 程序 的 不 同 版 本 
1.7 OSI 模型 


描述 一 个 网 络 中 各 个 协议 层 的 常用 方法 是 使 用 国际 标准 化 组 织 
(International Organization for Standardization, ISO) 的 计算 机 通信 开放 
系统 互 连 (open systems interconnection，OSI) 模型 。 这 是 一 个 七 层 模 
型 ， 如 图 1-14 所 示 。 图 中 同时 给 出 了 它 与 网 际 协 议 族 的 近似 映射 。 











应 用 层 细节 


用 户 进程 


a ERF 


XTI 


IPv4, IPv6 





设备 驱动 
OO me | 程序 和 硬件 
OSI 模型 网 际 网 协议 族 
图 1-14 OSI 模型 和 网 际 协议 族 中 的 各 层 
我 们 认为 OSI 模型 的 底下 两 层 是 随 系 统 提 供 的 设备 驱动 程序 和 网 络 
硬件 。 通 单 情 况 下 ， 除 需 知 道 数 据 链 路 的 某 些 特性 外 《如 将 在 2.11 节 论 














述 的 1500 字 节 以 太 网 的 MTU 大 小 ) ， 我 们 不 必 关 心 这 两 层 的 具体 情 
况 。 

网 络 层 由 IPv4 和 IPv6 这 两 个 协议 处 理 ， 我 们 将 在 附录 A 中 讲述 它 
们 。 可 以 选择 的 传输 层 有 TCP 或 UDP， 我 们 将 在 第 2 章 中 讲述 它们 。 图 1- 
14 中 TCP 与 UDP 之 间 留 有 间隙， 表明 网 络 应 用 绕 过 传输 层 直 接 使 用 IPv4 
或 IPv6 是 可 能 的 。 这 就 是 所 谓 的 原始 套 接 字 Craw socket) ， 我 们 将 在 第 
28 章 中 讨论 。 

OSI 模型 的 顶 上 三 层 被 合并 成 一 层 ， 称 为 应 用 层 。 这 就 是 web 客户 
(浏览 器 ) 、Telnet 客 户 、Web 服 务 器 、FTP 服 务 器 和 其 他 我 们 在 使 用 的 
网 络 应 用 所 在 的 层 。 对 于 网 际 协议 ，OSI 模 型 的 顶 上 三 层 协 议 几 乎 没有 
区 别 。 

本 书 讲述 的 套 接 字 编 程 接口 是 从 顶 上 三 层 ( 网 际 协 议 的 应 用 层 ) 进 
入 传输 层 的 接口 。 本 书 的 焦点 是 : 如 何 使 用 套 接 字 编写 使 用 TCP 或 UDP 








的 网 络 应 用 程序 。 我 们 已 提 到 原始 套 接 字 ， 在 第 29 章 中 我 们 将 看 到 ， 甚 
至 可 以 彻底 绕 过 IP 层 直接 读 写 数据 链 路 层 的 帧 。 

为 什么 套 接 字 提供 的 是 从 OSI 模 型 的 项 上 三 层 进入 传输 层 的 接口 ? 
这 样 设 计 有 两 个 理由 ， 如 图 1-14 右 侧 所 注 。 理 由 之 一 是 顶 上 三 层 处 理 具 
体 网 络 应 用 (如 FTP、Telnet 或 HTTP〉 的 所 有 细节 ， 却 对 通信 细节 了 解 
很 少 ;， 底 下 四 层 对 具体 网 络 应 用 了 解 不 多 ， 却 处 理 所 有 的 通信 细节 : 发 
送 数据 ， 等 待 确认 ， 给 无 序 到 达 的 数据 排序 ， 计 算 并 验证 校 验 和 ， 等 
等 。 理 由 之 二 是 项 上 三 层 通常 构成 所 谓 的 用 户 进 程 Cuser process) , JE 
下 四 层 却 通常 作为 操作 系统 内 核 的 一 部 分 提供 。Unix 与 其 他 现代 操作 系 
统 都 提供 分 隔 用 户 进 程 与 内 核 的 机 制 。 由 此 可 见 ， 第 4 层 和 第 5 层 之 间 的 
接口 是 构建 API 的 自然 位 置 。 ME 

















套 接 字 API 起 源 于 1983 年 发 行 的 4.2BSD 操 作 系 统 。 图 1-15 展 示 了 各 
种 BSD 发 行 版 本 的 发 展 史 ， 并 注 明 了 TCP/IP 的 主要 发 展 历 程 。1990 年 面 
世 的 4.3BSD Reno 发 行 版 本 随 着 OSI 协议 进入 BSD 内 核 而 对 套 接 字 API 做 
了 少量 的 改动 。 


4.2BSD (1983 年 ) 
第 一 个 广泛 可 用 的 TCP/IP 
和 套 接 字 API 版 本 


， 


4.3BSD (1986 年 ) 
改善 了 TCP 性 能 


4.3BSD Tahoe (1988 年 ) 


E Se 
pore 快速 重 传 


BSD Networking Software 
1.0) (19894) : Net/l 


4.3BSD Beno (1990 年 ) 
快速 恢复 ，TCP 首 部 预测 ， 


”SLIP 首 部 压缩 ， 路 由 表 修 改 ; 
We sockaddr{ } 中 添加 长 度 字 段 ， 
msqhar { } 中 添加 控制 信息 
BSD Networking Software 
2.0%. (19914E) : Net/2 | 


4.4BSD (1993 年 ) 
> 多 播 ， 长 胖 管道 改进 


ee 


4.4BSD-Lite (19945 ) 


正文 中 称 为 Net/3 BSD/OS 
FreeBSD 
| NetBSD 
OpenBSD 


4.4BSD-Lite2 (1995 年 ) 
图 1-15 各 种 BSD 版 本 的 历史 


图 1-15 中 从 4.2BSD 往 下 到 4.4BSD 的 通路 展示 了 源 自 Berkeley 计 算 机 
系统 研究 组 (Computer Systems Research Group, CSRG) 的 各 个 版 本 ， 





它们 要 求 获 取 者 已 拥有 Unix 的 源 代 码 许可 权 。 然 而 其 中 的 所 有 网 络 文 持 
代码 ， 不 论 是 内 核 支持 (如 TCP/IP 协 议 栈 、Unix 域 协议 栈 及 套 接 字 
APD 还 是 应 用 程序 〈 如 Telnet 和 FTP 客 户 和 服务 器 程序 ) 都 是 独立 于 源 
自 AT&T 的 Unix 代 码 开 发 的 。 因 此 从 1989 年 起 ，Berkeley 开 始 提供 第 一 
个 BSD 网 络 文 持 版 本 ， 它 包含 所 有 的 网 络 文 持 代码 以 及 不 受 Unix 源 代码 
许可 权 约 束 的 其 他 各 种 BSD 系 统 软件 。 这 些 包含 网 络 文 持 代码 的 版 本 是 
可 公开 获取 的 ， 最 终 因特网 上 任何 人 都 可 通过 匿名 FTP 获 取 。 

源 自 Berkeley 的 最 终 版 本 是 1994 年 的 4.4BSD-Lite 和 1995 年 的 
4.4BSD-Lite2。 我 们 指出 这 两 个 版 本 是 KE TRA (包括 BSD/OS、 
FreeBSD、NetBSD 和 OpenBSD) 的 基础 ， 这 些 系 统 大 多 数 仍 然 处 于 活 
跃 的 开发 和 完善 之 中 。 有 关 各 种 BSD 版 本 和 各 种 Unix 系 统 历史 的 详情 参 
JL (Mckusick et al.1996] 的 第 1 章 。 Mi 

许多 Unix 系 统 从 某 个 版 本 的 BSD 网 络 支 持 代 码 〈 包 括 套 接 字 API) 
开始 提供 网 络 文 持 ， 我 们 称 这 些 实现 为 源 自 Berkeley 的 实现 〈Berkeley- 
derived implementation) 。 许 多 商业 版 本 的 Unix 是 基于 System V 版 本 
4 (System V Release 4, SVR4) 的 ， 其 中 有 一 些 系 统 使 用 源 自 Berkeley 
的 网 络 文 持 代码 〈 如 UnixWare 2.x) ， 其 他 SVR4 系 统 的 网 络 文 持 代 码 却 
是 独立 起 源 的 〈 如 Solaris 2.x) 。 我 们 还 要 注意 ，Linux 这 种 流行 的 可 免 
费 获 得 的 Unix 实 现 并 不 适合 归属 源 自 Berkeley 的 系列 ， 因 为 它 的 网 络 支 
持 代 人 码 和 套 接 字 API 都 是 从 头 开始 开发 的 。 














图 1-16 展 示 了 本 书 示例 所 用 的 各 个 网 络 和 主机 。 对 于 每 个 主机 ， 我 
们 都 标 出 了 它 的 操作 系统 和 硬件 类 型 (因为 有 些 操作 系统 可 运行 在 不 止 
一 种 硬件 上 ) 。 各 个 框 内 的 名 字 就 是 出 现在 本 书 中 的 各 个 主机 名 。 
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图 1-16 本 书 示 例 所 用 的 网 络 和 主机 


图 1-16 所 示 的 拓扑 适合 本 书 的 例子 ， 不 过 机 器 大 范围 地 散布 在 因 特 
网 上 ， 物 理 拓扑 实际 上 变 得 不 太 重 要 。 事 实 上 虚拟 专用 网 络 (virtual 
private network, VPN) 或 安全 shell (secure shell, SSH) 连接 提供 这 些 
机 器 之 间 的 连通 性 ， 而 无 需 顾及 这 些 主机 的 物理 位 置 。 

图 中 %/24”( 和 /64) 指出 从 地 址 的 最 左 位 开始 用 于 标识 网 络 和 子 网 
的 连续 位 数 。A.4 节 将 说 明 现 今 用 于 指定 子 网 边界 的 /hn 记 法 。 

Sun 操 作 系 统 的 真实 名 字 是 SunOS 5.x， 而 不 是 Solaris 2.x， 但 是 大 家 
习惯 称 它 为 Solaris， 实 际 上 这 是 操作 系统 和 与 之 捆绑 的 其 他 软件 的 合 
称 。 

网 络 拓扑 的 发 现 

图 1-16 展 示 了 本 书 的 全 部 示例 所 用 主机 的 网 络 拓扑 ， 但 是 为 了 在 你 
自己 的 网 络 上 运行 这 些 例子 和 完成 习题 ， 你 可 能 需要 了 解 自 己 的 网 络 拓 
扑 。 尽 管 目前 还 没有 关于 网 络 配置 和 管理 的 现行 Unix 标 准 ， 但 大 多 数 
Unix 系 统 都 提供 了 可 用 于 发 现 某 些 网 络 细节 的 两 个 基本 命令 : netstat 和 








ifconfig。 通 过 阅读 所 用 系统 上 这 些 命令 的 手册 页 面 [9] ， 你 可 以 获悉 有 
关 它 们 的 输出 信息 的 详情 。 要 留意 的 是 ， 有 些 厂 商 把 这 些 命令 存放 在 庄 
如 /sbin 或 /usr/sbin 这 样 的 管理 目录 中 ， 而 不 是 通常 的 /usr/bin 目 录 ， 而 这 
些 管理 目录 可 能 不 在 通常 的 shell 搜 索 路 径 中 《〈 由 PATH 环境 变量 指 
Els 

(1) netstat -i 提供 网 络 接口 的 信息 。 我 们 还 指定 -n 标 志 以 输出 数值 地 
址 ， 而 不 是 试图 把 它们 反 辣 解析 成 名 字 。 下 面 的 例子 给 出 了 接口 及 其 名 
字 和 统计 信息 : 


linux % netstat -ni 





Kernel Interface table 
Iface MTU Met RX-OK RX-ERR RX-DRP RX-OVR TX-OK 
TX-ERR TX-DRP TX-OVR Flg 


eth0 1500 049211085 0 0 040540958 
0 0 0 BMRU 

lo 16436 098613572 0 0 
098613572 0 0 O LRU 


其 中 环 回 Qoopback) 接口 称 为 1o， 以 太 网 接口 称 为 eth0。 下 面 的 例 
子 给 出 了 文 持 IPv6 的 一 个 主机 的 类 似 信息 : 


freebsd % netstat -Di 


Name Mtu Network Address Ipkts 
lerrs Opkts Oerrs Coll 

hme0 1500 <Link#1> 08:00:20:a7:68:6b 29100435 35 
46561488 0 0 

hme0 1500 12.106.32/24 12.106.32.254 28746630 - 
46617260 - - 


hme0 1500 fe80:1::a00:20ff:fea7:686b/64 
fe80:1::a00:20ff:fea7:686b 


0 a - 
hme0 1500 3ffe:b80:1f8d:1::1/64 
3ffe:b80:1f8d:1::1 0 - 
0 E 2 
hmel 1500 <Link#2> 08:00:20:a7:68:6b 51092 
0 31537 0 0 


hme1 1500 fe80:2::a00:20ff:fea7:686b/64 
fe80:2::a00:20ff:fea7:686b 


0 E 
90 - - 
hmel 1500 192.168.42 192.168.42.1 
43584 - 24173 = 
hmel 1500 3ffe:b80:1f8d:2::1/64 
3ffe:b80:1f8d:2::1 78 - 
8 - 7 
100 16384 <Link#6> 
10198 0 10198 0 0 
100 16384 ::1/128 I 
10 - 10 - - 
100 16384 fe80:6::1/64 fe80:6::1 
0 - 0 - - 
100 16384 127 127.0.0.1 
10167 - 10167 - - 
gif0 1280 <Link#8> 
6 0 5 0 0 


gifo 1280 3ffe:b80:3:9ad1::2/128 


3ffe:b80:3:9ad1::2 


0 = 


0 E P 


gifo 1280 fe80:8::a00:20ff:fea7:686b/64 
fe80:8::a00:20ff:fea7:686b 


0 - 
0 z z 





注意 : 为 了 对 齐 输 出 字段 ， 我 们 对 较 长 的 代码 行 做 了 回 行 处 理 。 
(2) netstat EA, MER AER. RINE a Ts 
定 -n 标 志 以 输出 数值 地 址 。 它 还 给 出 默认 路 由 器 的 卫 地 址 。 


freebsd % netstat -nr 


Routing tables 
Internet: 
Destination 
Netif Expire 
default 
hme0 
12.106.32/24 
0 hme0 
12.106.32.1 
hme0 1187 
12.106.32.253 
hme0 140 
12.106.32.254 
100 
127.0.0.1 
10167 100 


192.168.42 


Gatevvay 


12.106.32.1 


link#1 


00:b0:8e:92:2c:00 


08:00:20:b8:f7:e0 


08:00:20:a7:68:6b 


127.0.0.1 


link#2 


Flags Refs Use 

USGc 10 6877 

UC 3 
UHLW 9 7 
UHLW 0 1 
UHLW 0 2 
UH 1 

UC 2 


O hmel 

192.168.42.1 08:00:20:a7:68:6b UHLW 0 11 
100 

192.168.42.2 00:04:ac:17:bf:38 UHLW 2 24108 
hmel 210 

Internet6: 

Destination 
Gateway Flags  Netif Expire 

::/96 sl 
UGRSc lo0 => 

default 3ffe:b80:3:9ad1::1 
UGSc gifo 

= 
1 UH lo0 

::ffff:0.0.0.0/96 ed 
UGRSc 100 

3ffe:b80:3:9ad1::1 3ffe:b80:3:9ad1::2 
UH gifo 

3ffe:b80:3:9ad1::2 link#8 
UHL 100 

3ffe:b80:1f8d::/48 100 
USc 100 

3ffe:b80:1f8d:1::/64 link#1 
UC hme0 

3ffe:b80:1f8d:1::1 08:00:20:a7:68:6b 
UHL lo0 

3ffe:b80:1f8d:2::/64 link#2 


UC 


3ffe:b80:1f8d:2::1 


UHL 


hmel 


100 


3ffe:b80:1f8d:2:204:acff:fe17:bf38 00:04:ac:17:bf:38 


UHLW 


fe80: 


UGRSc 


fe80: 


link#1 


fe80: 


UHL 


fe80: 


link#2 


fe80: 


UHL 


fe80: 


Uc 


fe80:: 


link#6 


fe80: 


link#8 


fe80: 


UHL 


ff01: 


U 


ff02: 


UGRS 


:a00:20ff:fea7:686b%hme0 


:a00:20ff:fea7:686b%hmel 


:%100/64 


:a00:20ff:fea7:686b%gif0 


hmel 


:/10 “1 


100 


:%hme0/64 


UC hme0 
08:00:20:a7:68:6b 


100 


:%hme1/64 


UC hmel 
08:00:20:a7:68:6b 
100 
fe80::1%lo0 
100 
1%lo0 


UHL 100 


:%gif0/64 


UC gif0 
link#8 


100 


132 1 


100 


:/16 1 


100 


08:00:20:a7:68:6b 


ff02::%hme0/32 


link#1 UC hme0 
ff02::%hme1/32 

link#2 UC hmel 
ff02::%100/32 

el UC 100 
ff02::%gif0/32 

link#8 UC gif0 











(3) 有 了 各 个 网 络 接口 的 名 字 ， 执 行 ifconfig 就 可 获得 每 个 接口 的 详 
细 信 息 。 
linux % ifconfig eth0 
etho Link encap: Ethernet HVVaddr 00:C0:9F:06:BO:E1 
inet addr:206.168.112.96 Bcast:206.168.112.127 
Mask:255.255.255.128 
UP BROADCAST RUNNING MULTICAST 
MTU:1500 Metric:1 
RX packets:49214397 errors:0 dropped:0 overruns:0 
frame:0 
TX packets:40543799 errors:0 dropped:0 overruns:0 
carrier:0 
collisions:0 txqueuelen:100 
RX bytes:1098069974 (1047.2 Mb) TX 
bytes:3360546472 (3204.8 Mb) 
Interrupt:11 Base address:0x6000 
辫 命 令 给 出 了 指定 接口 的 耳 地 址 、 子 网 掩 码 和 广播 地 址 。 其 中 的 
a fa ARO MEE. A ifconfigh SE 
现 还 提供 -a 标志 ， 用 于 输出 所 有 已 配置 接口 的 信息 。 





(4)“ 找 出 本 地 网 络 中 众多 主机 的 下 地 址 的 方法 之 一 是 ， 针 对 从 上 一 
步 找到 的 本 地 接口 的 广播 地 址 执行 ping 命 令 。 

linux % ping -b 206.168.112.127 

WARNING: pinging broadcast address 

PING 206.168.112.127 (206.168.112.127) from 206.168.112.96 : 56(84) 
bytes of data. 

64 bytes from 206.168.112.96: icmp_seq=0 ttl=255 time=241 usec 

64 bytes from 206.168.112.40: icmp_seq=0 ttl=255 time=2.566 msec 
(DUP!) 

64 bytes from 206.168.112.118: icmp_seq=0 ttl=255 time=2.973 msec 
(DUP!) 

64 bytes from 206.168.112.14: icmp_seq=0 ttl=255 time=3.089 msec 
(DUP!) 

64 bytes from 206.168.112.126: icmp_seq=0 ttl=255 time=3.200 msec 
(DUP!) 

64 bytes from 206.168.112.71: icmp_seq=0 ttl=255 time=3.311 msec 
(DUP!) 

64 bytes from 206.168.112.31: icmp_seq=0 ttl=64 time=3.541 msec 
(DUP!) 

64 bytes from 206.168.112.7: icmp_seq=0 ttl=255 time=3.636 msec 
(DUP!) 


1.10 Unix 标 准 


在 编写 本 书 时 ， 最 引 人 注 目的 Unix 标 准 化 活动 是 由 Austin 公 共 标 准 
修订 组 (The Austin Common Standards Revision Group, CSRG) 主持 





的 。 他 们 的 努力 结果 是 涵盖 1 700 多 个 编程 接口 的 约 4 000 页 内 容 的 规范 
[Josey 2002] 。 这 些 规范 既 具 有 IEEE POSIX 名 字 ， 也 具有 开放 团体 的 
技术 标准 (The Open Group's Technical Standard) 名 字 。 其 结果 是 同一 
个 Unix 标 准 有 多 个 名 字 来 指称 : ISO/IEC 9945:2002, IEEE Std 1003.1- 
2001 和 单一 Unix 规 范 第 3 版 (Single Unix Specification Version 3) 都 指 同 
一 个 标准 。 本 书 中 除了 像 本 市 这 样 需 要 讨论 各 种 较 早期 标准 各 目 特 性 的 
章节 外 ， 我 们 简单 地 称 这 个 Unix 标 准 为 POSIX 规 范 (The POSIX 
Specification) 。 

获取 这 个 统一 标准 的 最 简易 方法 是 定购 其 CD-ROM 找 贝 或 通过 Web 
免费 访问 。 这 两 种 方法 的 起 始点 都 是 http:/www.UNIX.org/version3。 

1.10.1POSIX 的 背景 

POSIX (可 移植 操作 系统 接口 ) 是 Portable Operating System 
Interface 的 首 字 母 缩写 。 它 并 不 是 单个 标准 ， 而 是 由 电气 与 电子 工程 师 
学 会 〈the Institute for Electrical and Electronics Engineers, Inc.) 即 IEEE 开 
发 的 一 系列 标准 。POSIX 标 准 已 被 国际 标准 化 组 织 即 ISO 和 国际 电工 委 
ná (the International Electrotechnical Commission) 即 IEC 采 纳 为 国际 
标准 (这 两 个 组 织 合 称 为 ISO/IEC〉。 下 面 是 POSIX 标 准 的 发 展 简 史 。 

第 一 个 POSIX 标 准 是 IEEE Std 1003.1-1988 (317 页 ) 。 它 详 述 了 进 
入 类 Unix 内 核 的 C 语 言 接 口 ， 涵 盖 了 下 述 领 域 ， 进程 原 语 Cork, exec, 
言 号 和 定时 器 ) 、 进 程 环境 “〈 用 户 ID 和 进程 组 ) 、 文 件 与 目录 OA 
IO 函数 ) 、 终 端 O、 系 统 数据 库 《〈 口 令 文件 和 用 户 组 文件 ) 以 及 tar 和 
cpio 归 档 格 式 。 

第 一 个 POSIX 标 准 在 1986 年 是 称 为 “TEEE-IX” 的 试用 版 。POSIX 这 
个 名 字 是 由 Richard Stallman 建 议 使 用 的 。 

第 二 个 POSIX 标 准 是 IEEE Std ”1003.1-1990 (356 页 ) ， 也 称 为 
ISO/IEC 9945-1: 1990。 从 1988 版 本 到 1990 版 本 只 做 了 少量 的 修改 。 新 添 
的 副标题 为 “Part 1: System Application Program Interface (API) [C 

















Language]j”， 表 明 本 标准 为 C 语 言 API。 

下 一 个 标准 是 两 卷 本 的 IEEE Std 1003.2-1992 〈 约 1300 页 ) 。 它 的 副 
标题 为 “Part 2: Shell and Utilities”。 这 一 部 分 定义 了 shell (基于 System V 
[Bourne Shell) 和 大 约 100 个 实用 程序 〈 通 第 从 shell 局 动 执行 的 程序 ， 
如 awk、basename、Vi 和 yacc 等 等 ) 。 本 书 称 这 个 标准 为 POSIX.2。 

再 下 一 个 标准 是 IEEE Std 1003.1b-1993 (59011) ， 先 前 称 为 IEEE 
P1003.4。 这 是 对 1003.1-1990 标 准 的 更 新 ， 添 加 了 由 P1003.4 工 作 组 开发 
的 实时 扩展 。1003.1b-1993 相 比 1990 年 版 标准 新 增 的 条 日 包括 : 文件 同 
步 、 异 步 JO、 信 和 号 量 、 存 储 管理 (mmap 和 共享 内 存 ) 、 执 行 调度 、 时 
钟 与 定时 器 以 及 消息 队列 。 

更 下 一 个 标准 是 IEEE Std 1003.1 1996 年 版 [IEEE 1996] (743 

) ， 也 称 为 ISO/IEC ”9945-1:1996， 它 包括 1003.1-1990 (基本 API) , 
1003.1b-1993 (SEIT F) ~ 1003.1c-1995 (pthreads) #11003.1i- 
1995 (对 1003.1b 的 技术 性 修订 ) 。 该 标准 增添 了 3 章 关 于 线程 的 内 容 ， 
并 另 有 关于 线程 同步 〈 互 斥 锁 和 条 件 变量 ) 、 线 程 调 度 和 同步 调度 的 各 
节 。 本 书 称 这 个 标准 为 POSIX.1。 该 标准 还 有 一 个 前 言 ， 其 中 声明 
ISO/IEC 9945 由 下 面 3 个 部 分 构成 。 

Part 1: System API (C language) 











第 1 部 分 ;系统 API (CER). 
第 2 部 分 ，Shell 和 实用 程序 。 
第 3 部 分 : 系统 管理 〈 正 在 开发 





Part 2: Shell and utilities 





Part 3: System administration 
Pr). 

EINER FERN Pr e RIPOSIK.1NIPOSIKX.2. 

743 页 中 有 超过 四 分 之 一 的 篇 幅 是 一 个 标题 为 “Rationale and 
Notes”( 理 由 与 注解 ， 的 附录 。 该 附录 含有 历史 性 信息 和 某 些 特性 被 加 
入 或 删除 的 理由 。 这 些 理由 通常 跟 正 式 标准 一 样 有 教 益 。 

最 后 一 个 标准 是 在 2000 年 被 认可 [10] 的 IEEE Std 1003.1g: Protocol- 
independent interfaces (PID。 在 单一 Unix 规 范 第 3 版 (The Single Unix 

















Specification Version 3) 面世 之 前 ， 这 是 与 本 书 涵 盖 的 主题 最 为 相关 的 
POSIX 产 品 。 它 是 联网 API 标 准 ， 它 定义 了 两 个 API， 并 称 它 们 为 详尽 网 
244% 1H (Detailed Network Interface, DNI) o 

DNISocket， 基 于 4.4BSD 的 套 接 字 API。 

DNIXTI， 基 于 X/Open 的 XPG4 规 范 。 

这 个 标准 的 工作 作为 P1003.12 工 作 组 (后 来 改名 为 P1003.1g〉 起 始 
于 20 世 纪 80 年 代 后 期 。 本 书 称 这 个 标准 为 POSIX.1g。 

关于 各 种 POSIX 标 准 的 当前 状况 可 以 访问 
http://www.pasc.org/standing/sd11.html. 

1.10.2 开放 团体 的 背景 

开放 团体 (The Open Group) 是 由 1984 年 成 立 的 X/Open 公司 

(X/Open Company) 和 1988 年 成 立 的 开放 软件 基金 会 (Open Software 
Foundation, OSF) 于 1996 年 合并 成 的 组 织 。 它 是 厂商 、 工 业界 最 终 用 
户 、 政 府 和 学 术 机 构 共 同 参加 的 国际 组 织 。 下 面 是 开放 团体 制定 的 标准 
的 简要 背景 。 

X/Open 公 司 于 1989 年 出 版 了 X/Open Portability Guide (X/Open 移植 
性 指南 ，XPG) 第 3 期 ， 即 XPG3。 

XPG 第 4 期 即 XPG4 出 版 于 1992 年 ， 其 第 2 版 出 版 于 1994 年 。 这 个 最 
新 版 本 也 称 为 “Spec 1 170”， 其 中 魔 数 1170 是 系统 接口 数 (926 个 ) A 
文件 数 〈70 个 ) 和 命令 数 〈174 个 ) 的 总 和 。 这 组 规范 的 最 终 名 字 是 
X/Open Single Unix Specification (X/Open 单一 Unix 规 范 ) ， 也 称 
为 “Unix 95”。 

单一 Unix 规 范 第 2 版 于 1997 年 3 月 太行 。 符 合 这 个 规范 的 产品 称 
为 “Unix 98”。 本 书 就 称 这 个 规范 为 “Unix 98”. Unix 98 的 接口 数目 从 
1170 个 增长 到 1434 个 ， 而 用 于 工作 站 的 接口 数 则 达到 3 ” 030 个， 因为 它 
包含 公共 桌面 环境 (Common Desktop Environment, CDE) , MASHË 
面 环境 又 需要 X Windows 系 统 和 Motif 用 户 接 口 。 本 规范 的 详情 参见 











http://www. UNIX.org/version2#l | Josey 1997] . Unix 98 为 套 接 字 API 和 
XTI API 定 义 了 网 络 支持 服务 。 这 个 规范 与 POSIX.1g 几 乎 相同 。 

不 洱 的 是 ，X/Open 称 它们 的 网 络 标准 为 XNS: X/Open Networking 
Services。 定 义 Unix 98 套 接 字 和 XTI 的 文档 的 这 一 版 本 称 为 “XNS Issue 
5”(XNS 第 5 期 ) 。 在 网 络 界 ，XNS 已 是 Xerox Network Systems 体 系 结 
构 的 简称 。 所 以 ， 我 们 避免 使 用 XNS， 而 称 这 个 X/Open 文档 为 Unix 98 
网 络 API 标 准 。 

1.10.3 标准 的 统一 

如 本 市 开头 所 提 ， 伴 随 Austin CSRG 发 布 单一 Unix 规 范 第 3 版 ， 
POSIX 和 开放 团体 都 继续 发 展 ， 达 成 统一 的 标准 。CSRG 促 成 50 多 家 公 
司 就 单一 标准 达成 一 致意 见 ， 这 在 Unix 发 展 史上 确实 是 一 件 划时代 之 大 
事 。 如 今 大 多 数 Unix 系 统 都 符合 POSIX.1 和 POSIX.2 的 某 个 版 本 ， 不 少 
系统 符合 单一 Unix 规 范 第 3 版 。 

历史 上 多 数 Unix 系 统 或 者 源 自 Berkeley， 或 者 源 自 System V, 不 过 
这 些 兰 别 在 慢 慢 消失 ， 因 为 大 多 数 矿 商 已 开始 采 纳 这 些 标准 。 然 而 在 系 
统管 理 的 处 理 上 两 者 仍然 存在 较 大 差别 ， 这 个 领域 目前 还 没有 标准 可 
循 。 

本 书 的 焦点 是 单一 Unix 规 范 第 3 版 ， 其 中 叉 以 套 接 字 API 为 主 。 只 要 
可 能 ， 我 们 就 使 用 标准 函数 。 

1.10.4 因特网 工程 任务 攻坚 组 

因特网 工程 任务 攻坚 组 (Internet Engineering Task Force, IETF) 是 
一 个 由 关心 因特网 体系 结构 的 发 展 及 其 顺利 运作 的 网 络 设计 者 、 操 作 
n J 商 和 研究 人 员 联 合 组 成 的 开放 的 国际 团体 。 它 回 任 何 感 兴趣 的 个 
AH: 

因特网 标准 处 理 过 程 在 RFC 2026 [Bradner 1996] 中 说 明 。 因 特 网 
标准 一 般 处 理 协 议 问 题 而 不 是 编程 API， 不 过 仍 有 两 个 RFC (RFC 
3493 [Gilligan et al. 2003] 和 RFC 3542 [Stevens et al. 2003] > 说 明了 














IPv6 的 套 接 字 API。 它 们 是 信息 性 的 RFC， 并 不 是 标准 ， 制 定 它 们 的 目 
的 是 加 速 部 署 由 多 家 从 事 IPv6 工 作 较 早 的 厂商 所 开发 的 可 移植 网 络 应 用 
程序 。 尽 管 标准 主体 趋 于 花费 很 长 的 时 间 ， 其 中 许多 API 却 已 经 在 单一 
Unix 规 范 第 3 版 中 标准 化 了 。 





1.11 64 位 ZË TA 


20 志 纪 90 年 代 中 期 到 未 期 开始 出 现 向 64 位 体系 结构 和 64 位 软件 发 展 
的 趋势 。 其 原因 之 一 是 在 每 个 进程 内 部 可 以 由 此 使 用 更 长 的 编 址 长 度 
( 即 64 位 指针 〉 ， 从 而 可 以 寻 址 很 大 的 内 存 空 间 (超过 2 字 节 ) 。 现 
有 32 位 Unix 系 统 上 共同 的 编程 模型 称 为 ILP32 模 型 ， 表 示 整 数 (I) 、 长 
整数 (L) 和 指针 P) 都 占用 32 位 。64 位 Unix 系 统 上 变 得 最 为 流行 的 模 
型 称 为 LP64 模 型 ， 表 示 只 有 长 整数 (LD 和 指针 CP) 占用 64 位 。 图 1-17 
对 这 两 种 模型 进行 了 比较 。 

从 编程 角度 看 ，LP64 模 型 意味 着 我 们 不 能 假设 一 个 指针 能 存放 在 一 
个 整数 中 。 我 们 还 必须 考虑 LP64 模 型 对 现 有 API 的 影响 。 





数据 类 型 ILP32 模 型 LP64 模 型 








图 1-17 ILP32 和 LP64 模 型 保存 不 同 数据 类 型 所 占用 的 位 数 的 比较 
ANSI “C 创 造 了 size _t 数 据 类 型 ， 它 用 于 作为 malloc 的 唯一 参数 〈 待 
分 配 的 字 节 数 ) ， 或 者 作为 read 和 write 的 第 三 个 参数 〈 待 读 或 写 的 字 节 
数 ) 。 在 32 位 系统 中 size_t 是 一 个 32 位 值 ， 但 是 在 64 位 系统 中 它 必须 是 





一 个 64 位 值 ， 以 便 发 挥 更 大 寻 址 模型 的 优势 。 这 意味 着 64 位 系统 中 也 许 
含有 一 个 把 size_t 定 义 为 unsigned long 的 typedef 指 令 。 联 网 API 存 在 如 下 
问题 : POSIX.1g 的 东 些 草案 规定 ， 存 放 套 接 字 地 址 结构 大 小 的 函数 参数 
具有 size_t 数 据 类 型 (如 bind 和 connect 的 第 三 个 参数 ) 。 某 些 XTI 结 构 也 
含有 数据 类 型 为 long 的 成 员 〈 如 tinfo 和 t_opthdr 结 构 ) 。 如 果 这 些 规定 
不 加 修改 ， 当 Unix 系 统 从 ILP32 模 型 转变 为 LP64 模 型 时 ，size_t 和 ]long 都 
将 从 32 位 值 变 为 64 位 值 。 这 两 个 例子 实际 上 并 不 需要 使 用 64 位 的 数据 类 
型 : 套 接 字 地 址 结构 的 长 度 最 多 也 就 儿 百 个 字 节 ， 给 XTI 的 结构 成 员 使 
用 long 数 据 类 型 则 是 个 错误 。 

处 理 这 些 情 况 的 办 法 是 使 用 专门 设计 的 数据 类 型 。 套 接 字 API 对 套 
接 字 地 址 结构 的 长 度 使 用 socklen t 数 据 类 型 ，XTI 则 使 用 t_scalar_t 和 
tuscalar t 数 据 类 型 。 不 把 这 些 值 由 32 位 改 为 64 位 的 理由 是 易于 为 那些 
己 在 32 位 系统 中 编译 的 应 用 程序 提供 在 新 的 64 位 系统 中 的 二 进 制 代 码 兼 
容 性 。 


1.12 2 E 


图 1-5 展 示 了 一 个 尽管 简单 但 却 完 整 的 TCP 客 户 程 序 ， 它 从 某 个 指定 
的 服务 器 读 取 当前 时 间 和 日 期 ， 而 图 1-9 则 展示 了 其 服务 器 程序 的 一 个 
完整 版 本 。 这 两 个 例子 引入 了 许多 本 书 其 他 部 分 将 要 扩展 的 概念 和 术 
语 。 

我 们 的 客户 程序 与 IPv4 协 议 相 关 ， 我 们 于 是 把 它 修改 成 使 用 IPv6， 
但 这 样 做 却 只 是 给 了 我 们 男 外 一 个 协议 相关 的 程序 。 我 们 将 在 第 11 间 中 
开发 一 些 可 用 来 编写 协议 无 天 代码 的 函数 ， 这 在 因特网 开始 使 用 IPv6 后 
会 变 得 非常 重要 。 

纵 贯 本 书 ， 我 们 将 使 用 1.4 节 中 介绍 的 包 里 函数 来 缩短 代码 ， 同 时 
又 保证 测试 每 个 函数 调用 ， 检 查 是 否 返 回 错误 。 我 们 的 包 右 函数 都 以 一 




















个 大 写字 母 开 头 。 

单一 Unix 规 范 第 3 厂 有 多 个 名 称 ， 我 们 简单 地 称 之 为 POSIX 规 范 。 
它 是 两 个 长 期 发 展 的 标准 团体 各 自 努 力 的 汇合 ， 由 Austin CSRG 最 终 团 
结 起 来 。 

对 Unix 网 络 支 持 历 史 感 兴 趣 的 读者 可 参阅 狼 述 Unix 历 史 的 【Salus 
1994」 和 和 投 述 TCP/IP 及 因特网 历史 的 [Salus 1995] o 


习题 


1.1 按 1.9 节 未 尾 的 步骤 找 出 你 自己 的 网 络 拓扑 的 信息 。 

1.2 ”获取 本 书 示例 的 源 代 码 〈 见 前 言 )》 ， 编 译 并 测试 图 1-5 所 示 的 
TCP 时 间 获 取 客 户 程 序 。 运 行 这 个 程序 若干 次 ， 每 次 以 不 同 IP 地 址 作为 
命令 行 参数 。 

1.3 ”把 图 1-5 中 的 socket 的 第 一 参数 改 为 9999。 编 译 并 运行 这 个 程 
序 。 结 果 如 何 ? 找 出 对 应 于 所 输出 出 错 的 errno 值 。 你 如 何 可 以 找到 关于 
这 个 错误 的 更 多 信息 ? 

14 修改 图 1-5 中 的 while 循 环 ， 加 入 一 个 计数 器 ， 累 计 read 返 回 大 于 
零 值 的 次 数 。 在 终止 前 输出 这 个 计数 器 值 。 编 译 并 运行 你 的 新 客户 程 
序 。 

1.5 按 下 述 步骤 修改 图 1-9 中 的 程序 。 首 先 ， 把 赋 于 sin_port 的 端口 号 
从 13 改 为 9999。 然 后 ， 把 write 的 单一 调用 改 为 循环 调用 ， 每 次 写 出 结果 
字符 串 的 一 个 字 节 。 编 译 修改 后 的 服务 器 程序 并 在 后 台 启 动 执行 。 接 着 
修改 前 一 道 习 题 中 的 客户 程序 ( 它 在 终止 前 输出 计数 器 值 )， 把 赋 于 
sin_port 的 端口 号 从 13 改 为 9999。 启 动 这 个 客户 程序 ， 指 定 运 行 修改 后 
的 服务 器 程序 的 主机 的 人 P 地 址 作为 命令 行 参 数 。 客 户 程 序 计数 器 的 输出 
值 是 多 少 ? 如 果 可 能 ， 在 不 同 主机 上 运行 这 个 客户 与 服务 器 程序 。 














2.1 概述 


本 章 提 供 本 书 示 例 所 用 TCP/IP 协 议 的 概貌 。 我 们 的 目的 是 从 网 络 编 
程 角度 提供 足够 的 细节 以 理解 如 何 使 用 这 些 协议 ， 同 时 提供 有 关 这 些 协 
议 的 实际 设计 、 实 现 及 历史 的 具体 描述 的 参考 点 。 

本 章 的 焦点 是 传输 层 ， 包 括 TCP、UDP 和 SCTP (Stream Control 
Transmission “ Protocol， 流 控制 传输 协议 ) 。 绝 大 多 数 客户 /服务 器 网 络 
应 用 使 用 TCP 或 UDP。SCTP 是 一 个 较 新 的 协议 ， 最 谍 设 计 用 于 跨 因 特 
网 传输 电话 信 令 。 这 些 传输 协议 都 转 而 使 用 网 络 层 协 议 IP: 或 是 IPv4， 
或 是 IPv6。 尽 管 可 以 绕 过 传输 层 直接 使 用 IPv4 或 ITPv6， 但 这 种 技术 《〈 往 
往 称 为 原始 套 接 字 ) 却 极 少 使 用 。 因 此 ， 我 们 把 IPv4 和 IPv6 以 及 
ICMPv4 和 ICMPv6 的 详细 描述 安排 在 附录 A 中 。 

UDP 是 一 个 简单 的 、 不 可 靠 的 数据 报 协议 ， 而 TCP 是 一 个 复杂 、 可 
靠 的 字 节 流 协 议 。SCTP 与 TCP 类 似 之 处 在 于 它 也 是 一 个 可 靠 的 传输 协 
议 ， 但 它 还 提供 消息 边界 、 传 输 级 别 多 窒 (multihoming) EUR 
端 阻 堵 Chead-of-line blocking) 减少 到 最 小 的 一 种 方法 。 我 们 必须 了 解 
由 这 些 传输 层 协 议 提供 给 应 用 进程 的 服务 ， 这 样 才能 弄 清 这 些 协议 处 理 
什么 ， 应 用 进程 中 义 需 要 处 理 什么 。 

TCP 的 某 些 特性 一 旦 理解 ， 就 很 容易 编写 健壮 的 客户 和 服务 器 程 
序 ， 也 很 容易 使 用 诸如 netstat 等 普遍 可 用 的 工具 来 调试 客户 和 服务 器 程 
序 。 本 章 将 阐述 以 下 相关 主题 ，TCP 的 三 路 握手 、TCP 的 连接 终止 序列 
和 TCP 的 TIME_WAIT 状 态 ，SCTP 的 四 路 握手 和 SCTP 的 连接 终止 ， 加 上 
由 套 接 字 层 提供 的 TCP、UDP 和 SCTP 绥 冲 机 制 ， 等 等 。 














2.2 AR 


里 然 协议 族 被 称 为 “TCP/IP”， 但 除了 TCP 和 IP 这 两 个 主要 协议 外 ， 
还 有 许多 其 他 成 员 。 图 2-1 展 示 了 这 些 协议 的 概况 。 

图 2-1 中 同时 展示 了 IPv4 和 IPv6。 从 右 向 左 查 看 该 图 ， 最 右边 的 5 个 
网 络 应 用 在 使 用 IPv6; 我 们 将 在 第 3 章 中 随 sockaddr_in6 结 构 讲 解 
AF_INET6 常 值 。 随 后 的 6 个 网 络 应 用 使 用 IPv4。 

最 左边 名 为 tcpdump 的 网 络 应 用 或 者 使 用 BSD 分 组 过 滤器 (BSD 
packet filter, BPF) ， 或 者 使 用 数据 链 路 提供 者 接口 〈datalink provider 
interface, DLPI) 直接 与 数据 链 路 进行 通信 。 处 于 其 右边 所 有 9 个 应 用 
下 面 的 虚线 标记 为 API， 它 通常 是 套 接 字 或 XTI。 访 问 BPF 或 DLPI 的 接 
口 不 使 用 套 接 字 或 XTI。 

这 种 情况 存在 一 个 例外 : Linux 使 用 一 种 称 为 SOCK_PACKET 的 特 
殊 套 接 字 类 型 提供 对 于 数据 链 路 的 访问 。 我 们 将 在 第 28 章 中 详细 讲述 这 
个 例外 。 
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图 2-1 TCP/IP 协 议 概况 





图 2-1 中 还 标明 traceroute 程 序 使 用 两 种 套 接 字 : IP 套 接 字 用 于 访问 
IP，ICMP 套 接 字 用 于 访问 ICMP。 在 第 28 章 中 ， 我 们 将 开发 ping 和 
traceroute 这 两 个 应 用 的 IPv4 和 IPv6 版 本 。 

下 面 我 们 讲解 一 下 图 2-1 中 的 每 一 个 协议 框 。 

IPva 网 际 协议 版 本 4 (Internet Protocol version 4) 。IPv4 (通常 称 
之 为 了 了 ) 自 20 世 纪 80 年 代 早期 以 来 一 直 是 网 际 协议 族 的 主力 协议 。 它 使 
用 32 位 地 址 〈 见 A.4 节 ) 。IPv4 给 TCP、UDP、SCTP、ICMP 和 IGMP 提 
供 分 组 递送 服务 。 

IPv6 网 际 协议 版 本 6 (Internet Protocol version 6) 。IPv6 是 在 20 世 
纪 90 年 代 中 期 作为 IPv4 的 一 个 蔡 代 品 设计 的 。 其 主要 变化 是 使 用 128 位 
更 大 地 址 〈 见 A.5 节 ) 以 应 对 20 世 纪 90 年 代 因 特 网 的 爆发 性 增长 。IPv6 
给 TCP、UDP、SCTP 和 ICMPv6 提 供 分 组 递送 服务 。 


当 无 需 区 别 IPv4 和 IPV6 时 ， 我 们 经 常 把 “IP” 一 词 作为 形容 词 使 用 ， 
如 IP 层 、IP 地 址 等 。 

TCP 传输 控制 协议 (Transmission Control Protocol) 。TCP 是 一 个 
面 同 连 接 的 协议 ， 为 用 户 进 程 提 供 可 靠 的 全 双 工 字 市 流 。TCP 套 接 字 是 
一 种 流 套 接 字 (stream socket) 。TCP 关 心 确 认 、 超 时 和 重 传 之 类 的 细 
节 。 大 多 数 因特网 应 用 程序 使 用 TCP。 注 意 ，TCP 既 可 以 使 用 IPv4， 也 
可 以 使 用 IPv6。 

UDP 用 户 数 据 报 协议 (User Datagram Protocol) 。UDP 是 一 个 无 连 
接 协议 。UDP 套 接 字 是 一 种 数据 报 套 接 字 (datagram socket) 。UDP 数 
据 报 不 能 保证 最 终 到 达 和 它们 的 目的 地 。 与 TCP 一 样 ，UDP 既 可 以 使 用 
IPv4， 也 可 以 使 用 IPv6。 

SCTP 流 控制 传输 协议 (Stream Control Transmission Protocol) 。 
SCTP 是 一 个 提供 可 靠 全 双 工 关联 的 面 问 连 接 的 协议 ， 我 们 使 用 “ 关 
联 ” 一 词 来 指称 SCTP 中 的 连接 ， 因 为 SCTP 是 多 宿 的 ， 从 而 每 个 关联 的 
两 端 均 涉及 一 组 了 地 址 和 一 个 端口 号 。SCTP 提 供 消 息 服 务 ， 也 残 是 维 
护 来 自 应 用 层 的 记录 边界 。 与 TCP 和 UDP 一 样 ， SCTP 既 可 以 使 用 
IPv4， 也 可 以 使 用 IPv6， 而 且 能 够 在 同一 个 关联 中 同时 使 用 它们 。 

ICMP 网 际 控制 消息 协议 (Internet Control Message Protocol) 。 
ICMP 处 理 在 路 由 器 和 主机 之 间 流 通 的 错误 和 控制 消息 。 这 些 消息 通常 
由 TCP/P 网 络 文 持 软件 本 身 《〈 而 不 是 用 户 进 程 ) 产生 和 处 理 ， 不 过 图 中 
展示 的 ping 和 traceroute 程 序 同样 使 用 ICMP。 有 时 我 们 称 这 个 协议 为 
ICMPv4， 以 便 与 ICMPv6 相 区 别 。 

IGMP 网 际 组 管理 协议 (Internet Group Management Protocol) 。 
IGMP 用 于 多 播 “ 见 第 21 章 ) ， 它 在 IPv4 中 是 可 选 的 。 

ARP 地 址 解析 协议 (Address Resolution Protocol) 。ARP 把 一 个 
IPv4 地 址 映射 成 一 个 硬件 地 址 〈 如 以 太 网 地 址 ) 。ARP 通 常用 于 诸如 以 
太 网 、 令 脾 环 网 和 FDDI 等 广播 网 络 ， 在 点 到 点 网 络 上 并 不 需要 。 














RARP 反问 地 址 解析 协议 (Reverse Address Resolution Protocol) 。 
RARP 把 一 个 硬件 地 址 映射 成 一 个 IPv4 地 址 。 它 有 时 用 于 无 盘 节 点 的 引 
导 。 

ICMPv6 网 际 控制 消息 协议 版 本 6 (Internet Control Message Protocol 
version 6) 。ICMPv6 综 合 了 ICMPv4、IGMP 和 ARP 的 功能 。 

BPF BSD 分 组 过 滤器 (BSD packet filter) 。 该 接口 提供 对 于 数据 链 
路 层 的 访问 能 力 ， 通 常 可 以 在 源 自 Berkeley 的 内 核 中 找到 。 

DLPI 数据 链 路 提供 者 接口 (datalink provider interface) 。 该 接口 也 
提供 对 于 数据 链 路 层 的 访问 能 力 ， 通 常 随 SVR4 内 核 提 供 。 

所 有 网 际 协 议 由 一 个 或 多 个 称 为 请 求 评注 (Request for 
Comments, RFC) 的 文档 定义 ， 这 些 RFC 就 是 它们 的 正式 规范 。 习 题 
2.1 的 答案 说 明 如 何 获得 这 些 RFC。 

我 们 使 用 术语 “IPv4/IPv6 主 机 ”或 “ 双 栈 主机 ”表示 同时 支持 IPv4 和 
IPv6 的 主机 。 

TCP/IP 协 议 的 其 他 细节 参见 TCPv1。TCP/IP 在 4.4BSD 上 的 实现 参见 
TCPv2. 





UDP 是 一 个 简单 的 传输 层 协议 ， 在 RFC 768 [Postel 1980] 中 有 详 
细 说 明 。 应 用 进程 往 一 个 UDP 套 接 字 写 入 一 个 消息 ， 该 消息 随后 被 封装 
(encapsulating) 到 一 个 UDP 数据 报 ， 该 UDP 数据 报 进 而 又 被 封装 到 一 
个 IP 数 据 报 ， 然 后 发 送 到 目的 地 。UDP 不 保证 UDP 数据 报 会 到 达 其 最 终 
目的 地 ， 不 保证 各 个 数据 报 的 先后 顺序 跨 网 络 后 保持 不 变 ， 也 不 保证 每 
个 数据 报 只 到 达 一 次 。 

我 们 使 用 UDP 进行 网 络 编程 所 遇 到 的 问题 是 它 缺 乏 可 靠 性 。 如 果 一 
个 数据 报到 达 了 其 最 终 目 的 地 ， 但 是 校 验 和 检测 发 现 有 错误 ， 或 者 该 数 


据 报 在 网 络 传输 途中 被 丢弃 了 ， 它 就 无 法 被 投递 给 UDP 套 接 字 ， 也 不 会 
被 源 端 自动 重 传 。 如 果 想 要 确保 一 个 数据 报到 达 其 目的 地 ， 可 以 往 应 用 
程序 中 添置 一 大 堆 的 特性 : 来 自 对 端 的 确认 、 本 疹 的 超时 与 重 传 等 。 

每 个 UDP 数据 报 都 有 一 个 长 度 。 如 果 一 个 数据 报 正 确 地 到 达 其 目的 
地 ， 那 么 该 数据 报 的 长 度 将 随 数据 一 道 传递 给 接收 端 应 用 进程 。 我 们 已 
经 提 到 过 TCP 是 一 个 字 节 流 〈byte-stream) 协议 ， 没 有 任何 记录 边界 
〈 见 1.2 节 ) ， 这 一 点 不 同 于 UDP。 

我 们 也 说 UDP 提供 无 连接 的 〈connectionless) 服务 ， 因 为 UDP 客户 
与 服务 器 之 间 不 必 存 在 任何 长 期 的 关系 。 举 例 来 说 ， 一 个 UDP 客户 可 以 
创建 一 个 套 接 字 并 发 送 一 个 数据 报 给 一 个 给 定 的 服务 器 ， 然 后 立即 用 同 
一 个 套 接 字 发 送 另 一 个 数据 报 给 另 一 个 服务 器 。 同 样 地 ， 一 个 UDP 服务 
器 可 以 用 同一 个 UDP 套 接 字 从 寿 干 个 不 同 的 客户 接收 数据 报 ， 每 个 客户 
一 个 数据 报 。 








由 TCP 回 应 用 进程 提供 的 服务 不 同 于 由 UDP 提供 的 服务 。TCP 在 
RFC 793 [Postel 1981c] 中 有 详细 说 明 ， 然 后 由 RFC 1323 [ Jacobson, 
Braden, and Borman 1992) , RFC 2581 LAllman, Paxson, and Stevens 
1999] ~ RFC 2988 [Paxson and Allman 2000] 和 RFC 3390 | Allman, 
Floyd, and Partridge 2002] 加 以 更 新 。 首 先 ，TCP 提 供 客户 与 服务 器 之 
间 的 连接 (connection) 。TCP 客 户 先 与 某 个 给 定 服务 器 建立 一 个 连 
接 ， 再 路 该 连接 与 那个 服务 器 交换 数据 ， 然 后 终止 这 个 连接 。 

其 次 ，TCP 还 提供 了 可 靠 性 (reliability) 。 当 TCP 向 另 一 端 发 送 数 
据 时 ， 它 要 求 对 问 返 回 一 个 确认 。 如 果 没 有 收 到 确认 ，TCP 就 自动 重 传 
数据 并 每 等 更 长 时 间 。 在 数 次 重 传 失败 后 ，TCP 才 放弃 ， 如 此 在 尝试 发 
送 数据 上 所 花 的 总 时 间 一 般 为 4 一 10 分 钟 〈 依 赖 于 具体 实现 ) 。 





注意 ，TCP 并 不 保证 数据 一 定 会 被 对 方 端 点 接收 ， 因 为 这 是 不 可 能 
做 到 的 。 如 果 有 可 能 ， TCP 就 把 数据 递送 到 对 方 端点 ， 天 则 就 (通过 放 
弃 重 传 并 中 断 连 接 这 一 手段 ) 通知 用 户 。 这 么 次 来 ，TCP 也 不 能 被 描述 
成 是 100% 可 靠 的 协议 ， 它 提供 的 是 数据 的 可 靠 递 送 或 故障 的 可 靠 通 
Alo 

TCP 含 有 用 于 动态 估算 客户 和 服务 器 之 间 的 往返 时 间 Cround-trip 
time, RTT) 的 算法 ， 以 便 它 知道 等 待 一 个 确认 需要 多 少时 间 。 举 例 来 
说 ，RTT 在 一 个 局 域 网 上 大 约 是 几 喀 秒 ， 里 越 一 个 广域网 则 可 能 是 数秒 
钟 。 男 外 ， 因 为 RTT 受 网 络 流 通 各 种 变化 因素 影响 ，TCP 还 持续 估算 一 
个 给 定 连 接 的 RTT。 

TCP 通 过 给 其 中 每 个 字 节 关联 一 个 序列 号 对 所 发 送 的 数据 进行 排序 
(sequencing) 。 举 例 来 说 ， 假 设 一 个 应 用 写 2048 字 节 到 一 个 TCP 套 接 
字 ， 导 致 TCP 发 送 2 个 分 节 : 第 一 个 分 市 所 含 数据 的 序列 号 为 1~~1024， 
第 二 个 分 节 所 含 数 据 的 序列 号 为 1025~~2048。 (分 节 是 TCP 传 递 给 人 P 的 
数据 单元 。) 如 果 这 些 分 而 非 顺序 到 达 ， 接 收 端 TCP 将 先 根据 它们 的 序 
列 号 重新 排序 ， 再 把 结果 数据 传递 给 接收 应 用 。 如 果 接 收 端 TCP 接 收 到 
来 自 对 端的 重复 数据 《譬如 说 对 端 认为 一 个 分 节 已 丢失 并 因此 重 传 ， 而 
这 个 分 节 并 没有 真正 丢失 ， 只 是 网 络 通信 过 于 拥挤 ) ， 它 可 以 (根据 序 
WS) 判定 数据 是 重复 的 ， 从 而 丢弃 重复 数据 。 

UDP 不 提供 可 靠 性 。UDP 本 身 不 提供 确认 、 序 列 号 、RITT 佑 算 、 超 
时 和 重 传 等 机 制 。 如 果 一 个 UDP 数据 报 在 网 络 中 被 复制 ， 两 份 副 本 束 可 
能 都 递送 到 接收 端的 主机 。 同 样 地 ， 如 果 一 个 UDP 客户 发 送 两 个 数据 报 
到 同一 个 目的 地 ， 它 们 可 能 被 网 络 重新 排序 ， 其 倒 顺 序 后 到 达 目 的 地 。 
UDP 应 用 必须 处 理 所 有 这 些 情况 ， 在 22.5 节 中 我 们 将 展示 如 何 处 理 。 

再 次 ，TCP 提 供 流 量 控制 (flow control) 。TCP 总 是 告知 对 端 在 任 
何 时 刻 它 一 次 能 够 从 对 端 接收 多 少 字 节 的 数据 ， 这 称 为 通告 窗口 
(advertised window) 。 在 任何 时 刻 ， 该 窗口 指出 接收 缓冲 区 中 当前 可 
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小 减 小 到 0 是 有 可 能 的 : ATC DV FES KEE NX Ci, © 
致 它 必须 等 竺 应 用 从 该 缓冲 区 读 取 数据 时 ， 方 能 从 对 端 再 接收 数据 。 

UDP 不 提供 流量 控制 。 如 我 们 将 在 8.13 节 所 示 ， 让 较 快 的 UDP 发 送 
端 以 一 个 UDP 接收 端 难 以 跟 上 的 速率 发 送 数据 报 是 非常 容易 的 。 

最 后 ，TCP 连 接 是 全 双 工 的 〈full-duplex) 。 这 意味 着 在 一 个 给 定 
的 连接 上 应 用 可 以 在 任何 时 刻 在 进出 两 个 方向 上 既 发 送 数据 又 接收 数 
据 。 因 此 ，TCP 必 须 为 每 个 数据 流 方 同 跟 踩 诸如 序列 号 和 通告 窗口 大 小 
等 状态 信息 。 建 立 一 个 全 双 工 连接 后 ， 需 要 的 话 可 以 把 它 转换 成 一 个 单 
TÆR CULO.) 。 

UDP 可 以 是 全 双 工 的 。 

















SCTP 提 供 的 服务 与 UDP 和 TCP 提 供 的 类 似 。SCTP 在 RFC 
2960 | Stewart et al. 2000] 中 详细 说 明 ， 并 由 RFC 3309 [ Stone, Stewart, 
and Otis 2002] 加 以 更 新 。RFC 3286 [Ong and Yoakum 2002] 给 出 了 
SCTP 的 简要 介绍 。SCTP 在 客户 和 服务 器 之 间 提 供 关 联 
(association) ， 并 像 TCP 那 样 给 应 用 提供 可 靠 性 、 排 序 、 流 量 控制 以 
及 全 双 工 的 数据 传送 。SCTP 中 使 用 “关联 ”一 词 取代 “连接 ”是 为 了 避免 这 
样 的 内 涵 : 一 个 连接 只 涉及 两 个 IP 地 址 之 间 的 通信 。 一 个 关联 指 代 两 个 
系统 之 间 的 一 次 通信 ， 它 可 能 因为 SCTP 文 持 多 宿 而 涉及 不 止 两 个 地 
Hr; 

与 TCP 不 同 的 是 ，SCTP 是 面 回 消息 的 《message-oriented) . Eve 
供 各 个 记录 的 按 序 递 送 服务 。 与 UDP 一 样 ， 由 发 送 端 写 入 的 每 条 记录 的 


长 度 随 数 据 一 道 传递 给 接收 端 应 用 。 

SCTP 能 够 在 所 连接 的 并 点 之 间 提 供 多 个 流 ， 每 个 流 各 目 可 徘 地 按 
序 递送 消息 。 一 个 流 上 某 个 消息 的 丢失 不 会 阻塞 同一 关联 其 他 流 上 消息 
的 投递 。 这 种 做 法 与 TCP 正 好 相反 ， 融 TCP 而 言 ， 在 单一 字 节 流 中 任何 
位 置 的 字 节 丢失 都 将 阻塞 该 连接 上 其 后 所 有 数据 的 递送 ， 直 到 该 丢失 被 
修复 为 止 。 

SCTP 还 提供 多 宿 特 性 ， 使 得 单个 SCTP 端 点 能 够 文 持 多 个 了 地址 。 
该 特性 可 以 增强 应 对 网 络 故障 的 健壮 性 。 一 个 端点 可 能 有 多 个 元 余 的 网 
络 连接 ， 每 个 网 络 又 可 能 有 各 目 接 入 因特网 基础 设施 的 连接 。 当 该 庙 点 
与 男 一 个 端点 建 并 一 个 关联 后 ， 如 果 它 的 某 个 网 络 或 菜 个 跨越 因特网 的 
通路 发 生 故 障 ，SCTP 就 可 以 通过 切换 到 使 用 已 与 该 关联 相关 的 另 一 个 
地 址 来 规避 所 发 生 的 故障 。 

类 似 的 健壮 性 在 路 由 协议 的 辅助 下 也 可 以 从 TCP 中 获得 。 举 例 来 
说 ， 由 记 GP 实 现 的 同一 域内 的 BGP 连 接 往 往 把 赋予 路 由 器 内 茶 个 虚拟 接 
口 的 多 个 地 址 用 作 TCP 连 接 的 端点 。 该 域 的 路 由 协议 确保 两 个 路 由 器 之 
间 只 要 存在 一 条 路 由 ， 该 路 由 就 会 被 用 上 ， 从 而 保证 这 两 个 路 由 器 之 间 
的 BGP 连 接 可 用 ; 要 是 使 用 属于 菏 个 物理 接口 的 地 址 来 建立 BGP 连 接 ， 
该 物理 接口 又 变 得 不 工作 了 ， 这 一 点 就 不 可 能 做 到 。SCTP 的 多 牡 特 性 
允许 主机 《而 不 仅仅 是 路 由 器 ) Beis, MACS ere AA 
供应 商 及 生 ， 这 些 基于 路 由 的 TCP 多 窒 方 法 都 无 法 做 到 。 




















2.6 TCP 连 接 的 建立 和 终止 


为 帮助 大 家 理解 connect、accept 和 close 这 3 个 函数 并 使 用 netstat 程 序 
调试 TCP 应 用 ， 我 们 必须 了 解 TCP 连 接 如 何 建立 和 终止 ， 并 掌握 TCP 的 
状态 转换 图 。 

2.6.1 三 路 握手 


建立 一 个 TCP 连 接 时 会 发 生 下 述 情形 。 

(1) ”服务 器 必须 准备 好 接受 外 来 的 连接 。 这 通常 通过 调用 socket、 
bind 和 listen 这 3 个 函数 来 完成 ， 我 们 称 之 为 被 动 打开 (passive open) . 

(2) 客户 通过 调用 connect 发 起 主动 打开 Cactive open) 。 这 导致 客户 
TCP 发 送 一 个 SYN (同步 ) 分 节 ， 它 告诉 服务 器 客户 将 在 〈 待 建立 的 ) 
连接 中 发 送 的 数据 的 初始 序列 号 。 通 常 SYN 分 市 不 携带 数据 ， 其 所 在 IP 
数据 报 只 含有 一 个 IP 首 部 、 一 个 TCP 首 部 及 可 能 有 的 TCP 选 项 (我 们 稍 
后 讲解 ) 。 

3) 服务 器 必须 确认 CACK) 客户 的 SYN， 同 时 自己 也 得 发 送 一 个 
SYN 分 节 ， 它 含有 服务 器 将 在 同一 连接 中 发 送 的 数据 的 初始 序列 号 。 服 
务 器 在 单个 分 节 中 发 送 SYN 和 对 客户 SYN 的 ACK (确认 ) 。 

(4) 客户 必须 确认 服务 器 的 SYN。 

这 种 交换 至 少 需要 3 个 分 组 ， 因 此 称 之 为 TCP 的 三 路 握手 〈three- 
way handshake) 。 网 2-2 展 示 了 所 交换 的 3 个 分 节 。 
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图 2-2 TCP 的 三 路 握手 

图 2-2 给 出 的 客户 的 初始 序列 号 为 J]， 服 务 器 的 初始 序列 号 为 K。 
ACK 中 的 确认 号 是 发 送 这 个 ACK 的 一 端 所 期 待 的 下 一 个 序列 号 。 因 为 
SYN 占 据 一 个 字 厄 的 序列 号 空间 ， 所 以 每 一 个 SYN 的 ACK 中 的 确认 号 就 
是 该 SYN 的 初始 序列 号 加 1。 类 似 地 ， 每 一 个 FIN (表示 结束 的 ACK 


中 的 确认 号 为 该 FIN 的 序列 号 加 1。 

建立 TCP 连 接 就 好 比 一 个 电话 系统 [Nemeth 1997] 。socket 函 数 等 
同 于 有 电话 可 用 。bind 函 数 是 在 告诉 别人 你 的 电话 号 码 ， 这 样 他 们 可 以 
呼叫 你 。listen 函 数 是 打开 电话 振 铃 ， 这 样 当 有 一 个 外 来 呼叫 到 达 时 ， 你 
就 可 以 昕 到 。connect 函 数 要 求 我 们 知道 对 方 的 电话 号 码 并 拨打 它 。 
accept 隙 数 发 生 在 被 呼叫 的 人 应 管 电话 之 时 。 由 accept 返 回 客户 的 标识 
( 即 客户 的 IP 地 址 和 端口 号 ) 类 似 于 让 电话 机 的 呼叫 者 ID 功能 部 件 显示 
呼叫 者 的 电话 号 码 。 然 而 两 者 的 不 同 之 处 在 于 accept 只 在 连接 建立 之 后 
返回 客户 的 标识 ， 而 呼叫 者 ID 功能 部 件 却 在 我 们 选择 应 答 或 不 应 答 电话 
之 前 显示 呼叫 者 的 电话 号 码 。 如 采 使 用 域名 系统 DNS《〈 见 第 11 章 ) ， 它 
就 提供 了 一 种 类 似 于 电话 夭 的 服务 。getaddrinfo 类 似 于 在 电话 憩 中 查找 
某 个 人 的 电话 号 码 ，getnameinfo 则 类 似 于 有 一 本 按照 电话 号 人 码 而 不 是 按 
照 用 户 名 排序 的 电话 短 。 

2.6.2 TCP 选 项 

每 一 个 SYN 可 以 含有 多 个 TCP 选 项 。 下 面 是 常用 的 TCP 选 项 。 

MSS 选 项 。 发 送 SYN 的 TCP 一 端 使 用 本 选项 通告 对 端 它 的 最 大 分 节 
大 小 (maximum segment size〉 即 MSS， 也 就 是 它 在 本 连接 的 每 个 TCP 
分 节 中 愿意 接受 的 最 大 数据 量 。 发 送 端 TCP 使 用 接收 端的 MSS 值 作为 所 
发 送 分 节 的 最 大 大 小 。 我 们 将 在 7.9 节 看 到 如 何 使 用 TCP_MAXSEG 套 接 
字 选 项 提取 和 设置 这 个 TCP 选 项 。 

窗口 规模 选项 。TCP 连 接任 何 一 端 能 够 通告 对 端的 最 大 窗口 大 小 是 
65535， 因 为 在 TCP 首 部 中 相应 的 字段 占 16 位 。 然 而 当今 因特网 上 业已 
普及 的 高 速 网 络 连接 (45 ”Mbit/s 或 更 快 ， 如 RFC 1323 [ Jacobson, 
Braden, and Borman 1992] 所 述 ) 或 长 延迟 路 径 〈 卫 星 链 路 ) 要求 有 更 
大 的 窗口 以 获得 尽 可 能 大 的 吞吐 量 。 这 个 新 选项 指定 TCP 首 部 中 的 通告 
窗口 必须 扩大 〔( 即 左 移 ) 的 位 数 (0-14) ， 因 此 所 提供 的 最 大 窗口 接 

















近 1 GB (65535x21* ) 。 在 一 个 TCP 连 接 上 使 用 窗口 规模 的 前 提 是 它 的 
两 个 端 系统 必须 都 文 持 这 个 选项 。 我 们 将 在 7.5 节 看 到 如 何 使 用 
SO_RCVBUF 套 接 字 选项 影响 这 个 TCP 选 项 。 

为 提供 与 不 文 持 这 个 选项 的 较 早 实现 间 的 互 操 作 性 ， 需 应 用 如 下 规 
则 。TCP 可 以 作为 主动 打开 的 部 分 内 容 随 它 的 SYN 发 送 该 选项 ， 但 是 只 
在 对 端 也 随 它 的 SYN 发 送 该 选项 的 前 提 下 ， 它 才能 扩大 自己 窗口 的 规 
模 。 类 似 地 ， 服 务 器 的 TCP 只 有 接收 到 随 客户 的 SYN 到 达 的 该 选项 时 ， 
才能 发 送 该 选项 。 本 逻辑 假定 实现 忽略 它们 不 理解 的 选项 ， 如 此 忽略 是 
必需 的 要 求 ， 也 已 普遍 满足 ， 但 无 法 保证 所 有 实现 都 满足 此 要 求 。 

时 间 惟 选项 。 这 个 选项 对 于 高 速 网 络 连接 是 必要 的 ， 它 可 以 防止 由 
失 而 复 现 的 分 组 QH 可 能 造成 的 数据 损坏 。 它 是 一 个 较 新 的 选项 ， 也 以 
类 似 于 窗口 规模 选项 的 方式 协商 处 理 。 作 为 网 络 编程 人 员 ， 我 们 无 需 考 
虑 这 个 选项 。 

TCP 的 大 多 数 实现 都 文 持 这 些 和 常用 选项 。 后 两 个 选项 有 时 称 为 "RFC 
1323 选 项 *， 因 为 它们 是 在 RFC 1323 [ Jacobson, Braden, and Borman 
1992] 中 说 明 的 。 既 然 高 带宽 或 长 延迟 的 网 络 被 称 为 “长 胖 管 道 ” long 
fat pipe) ， 这 两 个 选项 也 称 为 “长 胖 管 道 选项 ”。TCPv1 的 第 24 音 对 这 些 
选项 有 详细 的 叙述 。 

2.6.3 TCP 连 接 终止 

TCP 建 立 一 个 连接 需 3 个 分 市 ， 终 止 一 个 连接 则 需 4 个 分 节 。 

(1) 某 个 应 用 进程 首先 调用 close， 我 们 称 该 端 执行 主动 关闭 (active 
close) 。 该 端的 TCP 于 是 发 送 一 个 FIN 分 节 ， 表 示 数 据 发 送 完 毕 。 

(2) 接收 到 这 个 FIN 的 对 问 执 行 被 动 关闭 (passive close) 。 这 个 FIN 
由 TCP 确 认 。 它 的 接收 也 作为 一 个 文件 结束 符 〈end-of-file) 传递 给 接收 
问 应 用 进程 〈 放 在 已 排队 等 候 该 应 用 进程 接收 的 任何 其 他 数据 之 后 ) ， 
因为 FIN 的 接收 意味 痢 接 收 端 应 用 进程 在 相应 连接 上 再 无 额外 数据 可 接 


























收 。 

(3) 一 段 时 间 后 ， 接 收 到 这 个 文件 结束 符 的 应 用 进程 将 调用 close 关 
闭 它 的 套 接 字 。 这 导致 它 的 TCP 也 发 送 一 个 FIN。 

(4) 接收 这 个 最 终 FIN 的 原 发 送 端 TCP〔 即 执行 主动 关闭 的 那 一 端 ) 
确认 这 个 FIN。 

既然 每 个 方向 都 需要 一 个 FIN 和 一 个 ACK， 因 此 通常 需要 4 个 分 
节 。 我 们 使 用 限定 词 “ 通 党 ”是 因为 : 某 些 情形 下 步骤 1 的 FIN 随 数据 一 起 
发 送 ; 另外， 步骤 2 和 步骤 3 发 送 的 分 节 都 出 自 执 行 被 动 关闭 那 一 端 ， 有 
可 能 被 合并 成 一 个 分 节 。 图 2-3 展 示 了 这 些 分 组 。 




















客户 服务 器 
7 = FIN M (被 动 关闭 ) 
(主动 关闭 ) readik |u10 
close 
ACK N+1 


图 2-3 TCP 连 接 关 闭 时 的 分 组 交换 

类 似 SYN， 一 个 FIN 也 占据 1 个 字 节 的 序列 号 空间 。 因 此 ， 每 个 FIN 
的 ACK 确 认 号 就 是 这 个 FIN 的 序列 号 加 1。 

在 步骤 2 与 步骤 3 之 间 ， 从 执行 被 动 关闭 一 端 到 执行 主动 关闭 一 端 泊 
动 数据 是 可 能 的 。 这 称 为 半 关 闭 Chalf-close) ， 我 们 将 在 6.6 节 随 
shutdown 函 数 再 详细 介绍 。 

当 套 接 字 被 关闭 时 ， 其 所 在 端 TCP 各 自发 送 了 一 个 FIN。 我 们 在 图 
中 指出 ， 这 是 由 应 用 进程 调用 close 而 发 生 的 ， 不 过 需 认 识 到 ， 当 一 个 








Unix 进 程 无 论 上 自愿 地 《〈 调 用 exit 或 从 main 函 数 返 回 ) 还 是 非 目 愿 地 〈 收 
到 一 个 终止 本 进程 的 信号 ) 终止 时 ， 所 有 打开 的 描述 符 都 被 关闭 ， 这 也 
导致 仍然 打开 的 任何 TCP 连 接 上 也 发 出 一 个 FIN。 

图 2-3 展 示 了 客户 执行 主动 关闭 的 情形 ， 不 过 我 们 指出 ， 无 论 是 客 
户 还 是 服务 器 ， 任 何 一 端 都 可 以 执行 主动 关闭 。 通 常情 况 是 客户 执行 主 
动 关闭 ， 但 是 某 些 协议 〈 璧 如 值得 注意 的 HITP/1.0) 却 由 服务 器 执行 主 
动 关闭 。 

2.6.4 TCP 状 态 转 换 图 

TCP 涉 及 连接 建立 和 连接 终止 的 操作 可 以 用 状态 转换 图 (state 
transition diagram) 来 说 明 ， 如 图 2-4 所 示 。 

TCP 为 一 个 连接 定义 了 11 种 状态 ， 并 且 TCP 规 则 规定 如 何 基 于 当前 
状态 及 在 该 状态 下 所 接收 的 分 节 从 一 个 状态 转换 到 另 一 个 状态 。 举 例 来 
说 ， 当 某 个 应 用 进程 在 CLOSED 状 态 下 执行 主动 打开 时 ，TCP 将 发 送 一 
个 SYN， 且 新 的 状态 是 SYN_SENT。 如 果 这 个 TCP 接 着 接收 到 一 个 带 
ACK 的 SYN， 它 将 发 送 一 个 ACK， 且 新 的 状态 是 ESTABLISHED。 这 个 
最 终 状态 是 绝 大 多 数 数据 传送 发 生 的 状态 。 

自 ESTABLISHED 状 态 引 出 的 两 个 箭头 处 理 连接 的 终止 。 如 果菜 个 
应 用 进程 在 接收 到 一 个 FIN 之 前 调用 close〈 主 动 关 闭 ) ， 那 就 转换 到 
FIN_WAIT_1 状 态 。 但 如 条 某 个 应 用 进程 在 ESTABLISHED 状 态 期 间接 
收 到 一 个 FIN〈 被 动 关 闭 ) ， 那 就 转换 到 CLOSE_WAIT 状 态 。 

我 们 用 粗 实 线 表示 通常 的 客户 状态 转换 ， 用 粗 虚线 表示 通常 的 服务 
器 状态 转换 。 图 中 还 注 明 存 在 两 个 我 们 未 曾 讨论 的 转换 一 个 为 同时 打 
JF (simultaneous open) ， 发 生 在 两 端 几乎 同时 发 送 SYN 并 且 这 两 个 
SYN 在 网 络 中 交错 的 情形 下 ， 男 一 个 为 同时 关闭 Csimultaneous 
close) ， 发 生 在 两 端 几 乎 同时 发 送 FIN 的 情形 下 。TCPv1 的 第 18 章 中 有 
这 两 种 情况 的 例子 和 讨论 ， 它 们 是 可 能 发 生 的 ， 不 过 非常 罕见 。 

展示 状态 转换 图 的 原因 之 一 是 给 出 11 种 TCP 状 态 的 名 称 。 这 些 状态 























可 使 用 netstat 显 示 ， 它 是 一 个 在 调试 客户 /服务 器 应 用 时 很 有 用 的 工具 。 
我 们 将 在 第 5 章 中 使 用 netstat 去 监视 状态 的 变化 。 
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一 一 一 pm 表示 客户 的 正常 状态 转换 

一 一 一 -站 表示 服务 器 的 正常 状态 转换 

应 用 : ”表示 状态 转换 在 应 用 进程 发 起 操作 时 发 生 
接收 : ”表示 状态 转换 在 接收 到 分 节 时 发 生 

Rik: ”表示 这 个 转换 发 送 什 么 


图 2-4 TCP 状 态 转换 图 
2.6.5 观察 分 组 


图 2-5 展 示 一 个 完整 的 TCP 连 接 所 发 生 的 实际 分 组 交换 情况 ， 包 括 连 
接 建立 、 数 据 传 送 和 连接 终止 3 个 阶段 。 图 中 还 展示 了 每 个 端点 所 历经 
的 TCP 状 态 。 

本 例 中 的 客户 通告 一 个 值 为 536 的 MSS〈 表 明 该 客户 只 实现 了 最 小 
重组 缓冲 区 大 小 ，， 服 务 器 通告 一 个 值 为 1460 的 MSS 以太 网 上 IPV4 的 
典型 值 ) 。 不 同方 向 上 MSS 值 不 相同 不 成 问题 〈 见 习题 2.5) 。 




















客户 服务 器 


socket, bind, listen 


socket LISTEN ( 被 动 打开 ) 
connect ( BHZE ) SYNJ, MSS accept ( [HE ) 
VË ia ae , MSS = 536 
( 主动 打开 ) SYN_SENT en, SYN_RCVD 
SYN K, ACK J+, MSS=* 
ESTABLISHED 
connect 返回 
ESTABLISHED 
< 客户 构造 请 求 > accept 返 回 
write read( PH3E ) 
read( PJH% ) 


read( 返回 ) 
< 服务 器 处 理 请 求 > 


read( [HE ) 
read( 返回 ) 





ACK 


close 


gu dë FINM 
( 主动 关闭 )FIN_WAIT_1 i wel 
readiklej0 
close 
CLOSED 


图 2-5 TCP 连 接 的 分 组 交换 

一 旦 建立 一 个 连接 ， 客 户 就 构造 一 个 请 求 并 发 送 给 服务 嚣 。 这 里 我 
们 假设 该 请 求 适 合 于 单个 TCP 分 节 〈 即 请 求 大 小 小 于 服务 器 通告 的 值 为 
1460 字 节 的 MSS) 。 服 务 器 处 理 该 请 求 并 发 送 一 个 应 答 ， 我 们 假设 该 应 
答 也 适合 于 单个 分 节 (本 例 即 小 于 536 字 节 ) 。 图 中 使 用 粗 箭头 表示 这 
两 个 数据 分 节 。 注 意 ， 服 务 器 对 客户 请 求 的 确认 是 伴随 其 应 答 及 送 的 。 
XP BOER T (piggybacking) ， 它 通常 在 服务 器 处 理 请 求 并 产生 
应 答 的 时 间 少 于 200 ms 时 发 生 。 如 果 服 务 占 耗 用 更 长 时 间 ， 壁 如 说 1 s， 
那么 我 们 将 看 到 先是 确认 后 是 应 答 。 《TCP 数据 流 机 理 在 TCPv1 的 第 19 








章 和 第 20 章 中 详细 叙述 。) 

图 中 随后 展示 的 是 终止 连接 的 4 个 分 节 。 注 意 ， 执 行 主动 关闭 的 那 
一 端 〈 本 例子 中 为 客户 ) 进入 我 们 将 在 下 一 节 中 讨论 的 TIME_WAIT 状 
IS 


Do 





图 2-5 中 值得 注意 的 是 ， 如 果 该 连接 的 整个 目的 仅仅 是 发 送 一 个 单 
分 节 的 请 求 和 接收 一 个 单 分 节 的 应 答 ， 那 么 使 用 TCP 有 8 个 分 节 的 开 
销 。 如 果 改 用 UDP， 那 么 只 需 交 换 两 个 分 组 : 一 个 承载 请 求 ， 一 个 承载 
应 答 。 然 而 从 TCP 切 换 到 UDP 将 丧失 TCP 提 供给 应 用 进程 的 全 部 可 靠 
性 ， 迫 使 可 靠 服务 的 一 大 堆 细 节 从 传输 层 CTCP) 转移 到 UDP 应 用 进 
程 。ITCP 提 供 的 另 一 个 重要 特性 即 拥 塞 控 制 也 必须 由 UDP 应 用 进程 来 处 
理 。 尽 管 如 此 ， 我 们 仍然 需要 知道 许多 网 络 应 用 是 使 用 UDP 构建 的 ， 因 
为 它们 需要 交换 的 数据 量 较 少 ， 而 UDP 避免 了 TCP 连 接 建 立 和 终止 所 需 
的 开销 。 





2.7 TIME_WAIT 状 态 


训 无 疑问 ，TCP 中 有 关 网 络 编程 最 不 容易 理解 的 是 它 的 
TIME_WAIT 状 态 。 在 图 2-4 中 我 们 看 到 执行 主动 关闭 的 那 端 经 历 了 这 个 
状态 。 该 端点 停留 在 这 个 状态 的 持续 时 间 是 最 长 分 节 生 命 期 (maximum 
segment lifetime, MSL) 的 两 倍 ， 有 时 候 称 之 为 2MSL 。 

任何 TCP 实 现 都 必须 为 MSL 选 择 一 个 值 。REFC 1122 [Braden 1989 ] 
的 建议 值 是 2 分 钟 ， 不 过 源 自 Berkeley 的 实现 传统 上 改 用 30 秒 这 个 值 。 这 
意味 着 TIME_WAIT 状 态 的 持续 时 间 在 1 分 钟 到 4 分 钟 之 间 。MSL 是 任何 
IP 数 据 报 能 够 在 因特网 中 存活 的 最 长 时 间 。 我 们 知道 这 个 时 间 是 有 限 
的 ， 因 为 每 个 数据 报 含 有 一 个 称 为 跳 限 Chop limit) 的 8 位 字段 〈 见 图 A- 
1 中 IPv4 的 TIL 字 段 和 网 A-2 中 IPv6 的 跳 限 字段 ) ， 它 的 最 大 值 为 255。 尽 
管 这 是 一 个 跳 数 限制 而 不 是 真正 的 时 间 限 制 ， 我 们 仍然 假设 : 具有 最 大 














跳 限 (255〉 的 分 组 在 网 络 中 存在 的 时 间 不 可 能 超过 MSL 秒 。 

分 组 在 网 络 中 “迷途 ”通常 是 路 由 异常 的 结果 。 某 个 路 由 器 月 演 或 某 
两 个 路 由 器 之 间 的 某 个 链 路 断 开 时 ， 路 由 协议 需 花 数秒 钟 到 数 分 钟 的 时 
间 才 能 稳定 并 找 出 另 一 条 通路 。 在 这 段 时 间 内 有 可 能 发 生路 由 循环 (路 
由 器 A 把 分 组 发 送 给 路 由 器 B， 而 B 再 把 它们 发 送 回 A) ， 我 们 关心 的 分 
组 可 能 就 此 陷入 这 样 的 循环 。 假 设 迷 途 的 分 组 是 一 个 TCP 分 节 ， 在 它 迷 
途 期 间 ， 发 送 端 TCP 超 时 并 重 传 该 分 组 ， 而 重 传 的 分 组 却 通过 某 条 候选 
路 径 到 达 最 终 目的 地 。 然 而 不 久 后 《〈“ 自 迷途 的 分 组 开始 其 旅程 起 最 多 
MSL 秒 以 内 ) 路 由 循环 修复 ， 早 先 迷 失 在 这 个 循环 中 的 分 组 最 终 也 被 送 
到 目的 地 。 这 个 原来 的 分 组 称 为 迷途 的 重复 分 组 (lost duplicate) 或 漫 
游 的 重复 分 组 (wandering duplicate) 。TCP 必 须 正 确 处 理 这 些 重复 的 分 
Ho 

TIME_WAIT 状 态 有 两 个 存在 的 理由 : 

(1) 可 靠 地 实现 TCP 全 双 工 连接 的 终止 ; 

(2) 允许 老 的 重复 分 节 在 网 络 中 消逝 。 

第 一 个 理由 可 以 通过 查看 图 2-5 并 假设 最 终 的 ACK 丢 失 了 来 解释 。 
服务 器 将 重新 发 送 它 的 最 终 那个 FIN， 因 此 客户 必须 维护 状态 信息 ， 以 
允许 它 重新 发 送 最 终 那 个 ACK。 要 是 客户 不 维护 状态 信息 ， 它 将 响应 以 
一 个 RST 另外 一 种 类 型 的 TCP 分 节 ) ， 该 分 节 将 被 服务 器 解释 成 一 个 
错误 。 如 果 TCP 打 算 执 行 所 有 必要 的 工作 以 彻底 终止 某 个 连接 上 两 个 方 
向 的 数据 流 《〈 即 全 双 工 关闭 ) ， 那 么 它 必须 正确 人 处理 连接 终止 序列 4 个 
分 节 中 任何 一 个 分 节 丢失 的 情况 。 本 例子 也 说 明了 为 什么 执行 主动 关闭 
的 那 一 端 是 处 于 TIME_WAIT 状 态 的 那 一 端 : 因为 可 能 不 得 不 重 传 最 终 
那个 ACK 的 就 是 那 一 端 。 

为 理解 存在 TIME_WAIT 状 态 的 第 二 个 理由 ， 我 们 假设 在 
12.106.32.254 的 1500 端 口 和 206.168.112.219 的 21 端 口 之 间 有 一 个 TCP 连 
接 。 我 们 关闭 这 个 连接 ， 过 一 段 时 间 后 在 相同 的 耳 地 址 和 端口 之 间 建 立 




















另 一 个 连接 。 后 一 个 连接 称 为 前 一 个 连接 的 化 身 Cincarnation) ， 因 为 
它们 的 IP 地 址 和 端口 号 都 相同 。TCP 必 须 防止 来 自 某 个 连接 的 老 的 重复 
分 组 在 该 连接 已 终止 后 再 现 ， 从 而 被 误解 成 属于 同一 连接 的 某 个 新 的 化 
身 。 为 做 到 这 一 点 ，TCP 将 不 给 处 于 TIME_WAIT 状 态 的 连接 发 起 新 的 
化 身 。 既 然 TIME_WAIT 状 态 的 持续 时 间 是 MSL 的 2 倍 ， 这 就 足以 让 某 个 
方向 上 的 分 组 最 多 存活 MSL 秒 即 被 丢弃 ， 另 一 个 方向 上 的 应 答 最 多 存活 
MSL 秒 也 被 丢弃 。 通 过 实施 这 个 规则 ， 我 们 就 能 保证 每 成 功 建立 一 个 
TCP 连 接 时 ， 来 自 该 连接 先前 化 身 的 老 的 重复 分 组 都 已 在 网 络 中 消逝 
I: 

这 个 规则 存在 一 个 例外 : 如 果 到 达 的 SYN 的 序列 号 大 于 前 一 化 身 的 
结束 序列 号 ， 源 自 Berkeley 的 实现 将 给 当前 处 于 TIME_WAIT 状 态 的 连接 
启动 新 的 化 身 。TCPv2 第 958 一 959 页 对 这 种 情况 有 详细 的 叙述 。 它 要 求 
服务 器 执行 主动 关闭 ， 因 为 接收 下 一 个 SYN 的 那 一 端 必须 处 于 
TIME_WAIT 状 态 。rsh 命 令 具 备 这 种 能 力 。RFC 1185 LJacobson, 
Braden, and Zhang 1990] 讲述 了 有 关 这 种 情形 的 一 些 陷阱 。 








2.8 SCTP 关 联 的 建立 和 终止 


与 TICP 一 样 ，SCTP 也 是 面 问 连接 的 ， 因 而 也 有 关联 的 建立 与 终止 
的 握手 过 程 。 不 过 SCTP 的 握手 过 程 不 同 于 TCP， 我 们 在 此 加 以 说 明 。 

2.8.1 四 路 握手 

建立 一 个 SCTP 关 联 的 时 候 会 发 生 下 述 情形 〈 类 似 于 TCP) 。 

1) ”服务 器 必须 准备 好 接受 外 来 的 关联 。 这 通常 通过 调用 socket、 
bind 和 和 listen 这 3 个 函数 来 完成 ， 称 为 被 动 打 开 。 

2) 客户 通过 调用 connect 或 者 发 送 一 个 隐 式 打开 该 关联 的 消息 进行 
主动 打开 。 这 使 得 客户 SCTP 发 送 一 个 INIT 消 息 〈 初 始 化 )， 该 消息 告 
诉 服 务 器 客户 的 IP 地 址 清单 、 初 始 序 列 号 、 用 于 标识 本 关联 中 所 有 分 组 








的 起 始 标记 、 客 户 请 求 的 外 出 流 的 数目 以 及 客户 能 够 支持 的 外 来 流 的 数 
目 。 

(3) 服务 器 以 一 个 INIT ACK 消 息 确认 客户 的 INIT 消 息 ， 其 中 含有 服 
务 器 的 卫 地 址 清单 、 初 始 序列 号 、 起 始 标记 、 服 务 器 请 求 的 外 出 流 的 数 
目 、 服 务 器 能 够 支持 的 外 来 流 的 数目 以 及 一 个 状态 cookie。 状 态 cookie 
包含 服务 器 用 于 确信 本 关联 有 效 所 需 的 所 有 状态 ， 它 是 数字 化 签名 过 
的 ， 以 确保 其 有 效 性 。 

(4) 客户 以 一 个 COOKIE ECHO 消 息 回 射 服务 器 的 状态 cookie。 除 
COOKIE ECHO 外 ， 该 消息 可 能 在 同一 个 分 组 中 还 捆绑 了 用 户 数据 。 

(5) 服务 器 以 一 个 COOKIE ACK 消 息 确 认 客 户 回 射 的 cookie 是 正确 
的 ， 本 关联 于 是 建立 。 该 消息 也 可 能 在 同一 个 分 组 中 还 捆绑 了 用 户 数 
据 。 

以 上 交换 过 程 至 少 需要 4 个 分 组 ， 因 此 称 之 为 SCTP 的 四 路 握手 
(four-way handshake) 。 图 2-6 展 示 了 这 4 个 分 节 。 








客户 服务 器 
socket, bind, listen 
socket (被 动 打开 ) 
connect ( [HE ) INIT (Ta,J) accept ([H3E) 
(主动 打开 ) 


Ta:INIT ACK (Tz,K,cookie C) 
Tz:COOKIE ECHO C 
accept 返 回 
Ta-COOKIE ACK aer iaa 


connect 返 加 | 





图 2-6 SCTP 的 四 路 握手 





SCTP 的 四 路 握手 在 很 多 方面 类 似 于 TCP 的 三 路 握手 ， 差 别 主要 在 
于 作为 SCTP 整 体 一 部 分 的 cookie 的 生成 。INIT 〈 随 其 众多 参数 一 道 ) 承 
载 一 个 验证 标记 Ta 和 一 个 初始 序列 号 J。 在 关联 的 有 效 期 内 ， 验 证 标记 


Ta 必须 在 对 端 发 送 的 每 个 分 组 中 出 现 。 初 始 序 列 号 J 用 作 承 载 用 户 数据 
的 DATA 块 的 起 始 序 列 号 。 对 端 也 在 INIT ACK 中 承载 一 个 验证 标记 Tz， 
在 关联 的 有 效 期 内 ， 验 证 标记 Tz 也 必须 在 其 发 送 的 每 个 分 组 中 出 现 。 除 
了 验证 标记 Tz 和 初始 序列 号 K 外 ，INIT 的 接收 端 还 在 作为 响应 的 INIT 
ACK 中 提供 一 个 cookie C。 该 cookie 包 含 设置 本 SCTP 关 联 所 需 的 所 有 状 
态 ， 这 样 服务 器 的 SCTP 栈 就 不 必 保 存 所 关联 客户 的 有 关 信 息 。SCTP 关 
联 设 置 的 细节 参见 [Stewart and Xie 2001] 的 第 4 章 。 

四 路 握手 过 程 结束 时 ， 两 端 各 上 自选 择 一 个 主 目的 地 址 (primary 
destination address) 。 当 不 存在 网 络 故障 时 ， 主 目的 地 址 将 用 作 数 据 要 
发 送 到 的 默认 目的 地 。 

在 SCTP 中 使 用 四 路 握手 是 为 了 避免 一 种 将 在 4.5 节 讨论 的 拒绝 服务 
攻击 。 

SCTP 使 用 cookie 的 四 路 握手 定形 了 一 种 防护 这 种 攻击 的 方法 。TCP 
的 许多 实现 也 使 用 类 似 的 方法 。 两 者 的 主要 差别 在 于 ，TCP 中 cookie 状 
态 必 须 编 码 到 只 有 32 位 长 的 初始 序列 号 中 。SCTP 为 此 提供 了 一 个 任意 
长 度 的 字段 ， 并 且 要 求实 施 基 于 加 密 的 安全 性 以 防护 攻击 。 

2.8.2 关联 终止 

SCTP 不 像 TCP 那 样 允 许 * 半 关闭 ?的 关联 。 当 一 端 关 闭 某 个 关联 时 ， 
另 一 端 必须 停止 发 送 新 的 数据 。 关 联 关 闭 请 求 的 接收 端 发 送 完 已 经 排队 
的 数据 (如 果 有 的 话 ) 后 ， 完 成 关联 的 关闭。 图 2-7 展 示 了 这 一 交换 过 


程 。 














客户 服务 器 


close 
(主动 关闭 ) (被 动 关 闭 ) 
read 返回 0 
close 


SHUTDOWN COMPLETE 





图 2-7 SCTP 关 联 关 闭 时 的 分 组 交换 

SCTP 没 有 类 似 于 TCP 的 TIME_WAIT 状 态 ， 因 为 SCTP 使 用 了 验证 标 
记 。 所 有 后 续 块 都 在 捆绑 它们 的 SCTP 分 组 的 公共 首部 标记 了 初始 的 
INIT 块 和 INIT ACK 块 中 作为 起 始 标 记 交 换 的 验证 标记 ; 由 来 自 旧 连 接 
的 块 通 过 所 在 SCTP 分 组 的 公共 首部 间接 携带 的 验证 标记 对 于 新 连接 来 
说 是 不 正确 的 。 因 此 ，SCTP 通 过 放置 验证 标记 值 就 避免 了 了 TCP 在 
TIME_WAIT 状 态 保持 整个 连接 的 做 法 。 

2.8.3 SCTP 状 态 转 换 图 

SCTP 涉 及 关联 建立 和 关联 终止 的 操作 可 以 用 状态 转换 图 (state 
transition diagram) 来 说 明 ， 如 图 2-8 所 示 。 

与 图 2-4 一 样 ， 本 状态 机 中 从 一 个 状态 到 另 一 个 状态 的 转换 由 SCTP 
规则 基于 当前 状态 及 在 该 状态 下 所 接收 的 块 规定 。 举 例 来 说 ， 当 某 个 应 
用 进程 在 CLOSED 状 态 下 执行 主动 打开 时 ，SCTP 将 发 送 一 个 INIT， 且 
新 的 状态 是 COOKIE-WAIT。 如 果 这 个 SCTP 接 着 接收 到 一 个 INIT 
ACK， 它 将 发 送 一 个 COOKIE ECHO， 且 新 的 状态 是 COOKIE- 
ECHOED。 如 果 该 SCTP 随 后 接收 到 一 个 COOKIE ACK， 它 将 转换 成 
ESTABLISHED 状 态 。 这 个 最 终 状 态 是 绝 大 多 数 数据 传送 发 生 点 的 状 
态 ， 尽 管 DATA 块 也 可 以 由 COOKIE ECHO 块 或 COOKIE ACK 块 所 在 消 
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图 2-8 SCTP 状 态 转 换 图 





从 ESTABLISHED 状 态 引 出 的 两 个 箭头 处 理 关 联 的 终止 。 如 果 某 个 
应 用 进程 在 接收 到 一 个 SHUTDOWN 之 前 调用 close (主动 关闭 ) ， 那 就 
转换 到 SHUTDOWN-PENDING 状 态 。 有 否则， 如果 某 个 应 用 进程 在 
ESTABLISHED 状 态 期 间接 收 到 一 个 SHUTDOWN CESA), AB 
转换 到 SHUTDOWN-RECEIVED 状 态 。 

2.8.4 观察 分 组 

图 2-9 展 示 一 个 作为 样 例 的 SCTP 关 联 所 发 生 的 实际 分 组 交换 情况 ， 
包括 关联 建立 、 数 据 传送 和 关联 终止 3 个 阶段 。 图 中 还 展示 了 每 个 端点 
所 历经 的 SCTP 状 态 。 








客户 服务 器 


socket 


connect (PH3E ) Ca, 
(主动 打开 (被 动 打开 ) 


INIT 
COOKIE-WAIT (Ta,J) accept (阻塞) 
Ta:INIT ACK (Tz,K,cookie C) 
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CLOSED 
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ESTABLISHED Tz:SACK, DATA 





rt act Tz:SHUTDO 
( 主动 关闭 ) | (被 动 关闭 ) 
SHUTDOWN-SENT read 返 回 0 
close 


K 
Ta. SHUTDOWN AC SHUTDOWN-ACK-SENT 


CLOSED | Tz:SHUTDONIN COMPLETE 
CLOSED 


图 2-9 SCTP 关 联 中 的 分 组 交换 








本 例 中 ， 客 户 在 COOKIE ECHOES HH TEN BEN 
DATA 块 ， 服 务 器 则 在 作为 应 答 的 COOKIE ACKIRATTE DA FAB TY SAL 
据 。 一 般 而 言 ， 当 网 络 应 用 采用 一 到 多 接口 式样 时 我们 将 在 9.2 节 中 
讨论 一 到 一 和 一 到 多 这 两 种 接口 式样 ) ，COOKIE ECHO RAN 
或 多 个 DATA 块 。 

SCTP 分 组 中 信息 的 单位 称 为 块 (chunk) 。 块 是 自 描 述 的 ， 包 含 一 
个 块 类 型 、 若 干 个 块 标 记 和 一 个 块 长 度 。 这 样 做 方便 了 多 个 块 的 绑 缚 ， 
只 要 把 它们 人 简单 地 组 合 到 一 个 SCTP 外 出 消息 中 《〈 [Stewart and = Xie 
20011 的 第 5 章 给 出 了 块 捆绑 和 常规 数据 传输 过 程 的 细节 ) 。 

2.8.5 SCTP 

SCTP 使 用 参数 和 块 方便 增设 可 选 特性 。 新 的 特性 通过 添加 这 两 个 
条 目 之 一 加 以 定义 ， 并 人 允许 通常 的 SCTP 处 理 规则 汇报 未 知 的 参数 和 未 
知 的 块 。 参 数 类 型 字段 和 块 类 型 字段 的 高 两 位 指明 SCTP 接 收 端 该 如 何 
处 置 未 知 的 参数 或 未 知 的 块 〈 [Stewart and Xie 2001] 的 3.1 节 给 出 了 更 
多 的 细节 ) 。 

当前 如 下 两 个 对 SCTP 的 扩展 正在 开发 中 。 

(1) 动态 地 址 扩展 ， 人 允许 协作 的 SCTP 端 点 从 已 有 的 某 个 关联 中 动态 
增删 [IP 地址。 

(2) 不 完全 可 靠 性 扩展 ， 人 允许 协作 的 SCTP 端 点 在 应 用 进程 的 指导 下 
限制 数据 的 重 传 。 当 一 个 消息 变 得 过 于 陈旧 而 无 须发 送 时 【〈 按 照应 用 进 
程 的 指导 ) ， 该 消息 将 被 跳 过 而 不 再 发 送 到 对 端 。 这 意味 着 不 是 所 有 数 
据 都 确保 到 达 关 联 的 另 一 端 。 
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任何 时 候 ， 多 个 进程 可 能 同时 使 用 TCP、UDP 和 SCTP 这 3 种 传输 层 
协议 中 的 任何 一 种 。 这 3 种 协议 都 使 用 16 位 整数 的 端口 号 (port 


number) 来 区 分 这 些 进程 。 

当 一 个 客户 想 要 跟 一 个 服务 器 联系 时 ， 它 必须 标识 想 要 与 之 通信 的 
这 个 服务 器 。TCP、UDP 和 SCTP 定 义 了 一 组 众所周知 的 端口 Cwell- 
known port) ， 用 于 标识 众所周知 的 服务 。 举 例 来 说 ， 文 持 FTP 的 任何 
TCP/IP 实 现 都 把 21 这 个 众所周知 的 端口 分 配给 FTP 服务器 。 分 配给 简化 
文件 传送 协议 (Trivial File Transfer Protocol, TFTP) 的 是 UDP 端口 号 
69. 

为 一 方面 ， 客 户 通常 使 用 短期 存活 的 临时 端口 (ephemeral port) » 
这 些 端口 号 通常 由 传输 层 协议 自动 赋予 客户 。 客 户 通 常 不 关心 其 临时 端 
口 的 具体 值 ， 而 只 需 确 信 该 端口 在 所 在 主机 中 是 唯一 的 就 行 。 传 输 协 议 
的 代码 确保 这 种 唯一 性 。 

IANA (the Internet Assigned Numbers Authority， 因 特 网 已 分 配 数值 
权威 机 构 〉 维 护 着 一 个 端口 号 分 配 状 况 的 清单 。 访 清单 一 度 作 为 RFC 多 
次 发 布 ，RFC 1700 [Reynolds and Postel 1994] 是 这 个 系列 的 最 后 一 
个 。RFC 3232 [Reynolds 2002] 给 出 了 蔡 代 RFC 1700 的 在 线 数 据 库 的 
位 置 : http:Wwww.iana.org/。 端 口号 被 划分 成 以 下 3 段 。 

1) 众所周知 的 端口 为 0 一 1023。 这 些 端 口 由 IANA 分 配 和 控制 。 可 
能 的 话 ， 相 同 端口 号 就 分 配给 TCP、UDP 和 SCTP 的 同一 给 定 服务 。 例 
如 ， 不 论 TCP 还 是 UDP 端口 号 80 都 被 贱 予 Web 服 务 器 ， 尽 管 它 目 前 的 所 
有 实现 都 单纯 使 用 TCP。 

端口 号 80 分 配 时 SCTP 尚 不 存在 。 新 的 端口 分 配 将 针对 这 3 种 协议 执 
行 ，RFC 2960 则 声明 所 有 现 有 的 TCP 端 口号 对 于 使 用 SCTP 的 同一 服务 
同样 有 效 。 

(2) 已 登记 的 端口 (registered port) 为 1024 一 49151。 这 些 端 口 不 受 
IANA 控制 ， 不 过 由 IANA 登记 并 提供 它们 的 使 用 情况 清单 ， 以 方便 整个 
群体 。 可 能 的 话 ， 相 同 端口 号 也 分 配给 TCP 和 UDP 的 同一 给 定 服 务 。 例 
如 ，6000 一 6063 分 配给 这 两 种 协议 的 X_ Window 服 务 器 ， 尽 管 它 的 所 有 




















实现 当前 单纯 使 用 TCP。49151 这 个 上 限 的 引入 是 为 了 给 临时 端口 留 出 
范围 ， 而 RFC 1700 [Reynolds and Postel 1994] 所 列 的 上 限 为 65535。 

(3) 49152 65535: 178%] (dynamic) 或 私 用 的 (private) 端口 。 
IANA 不 管 这 些 端口 。 它 们 就 是 我 们 所 称 的 临时 端口 。 (49152 这 个 魔 数 
是 65536 的 四 分 之 三 。) 

图 2-10 展 示 了 端口 号 的 划分 情况 和 常见 的 分 配 情 况 。 

我 们 要 注意 图 2-10 中 以 下 几 点 。 

Unix 系 统 有 保留 端口 (reserved port) 的 概念 ， 指 的 是 小 于 1024 的 
任何 端口 。 这 些 端 口上 只 能 赋予 特权 用 户 进程 的 套 接 字 。 所 有 IANA 众 所 
周知 的 端口 都 是 保留 端口 ， 分 配 使 用 这 些 端口 的 服务 器 (例如 FTP 服 务 
器 ) 必须 以 超级 用 户 特 权 启 动 。 

由 于 历史 原因 ， 源 自 Berkeley 的 实现 〈 从 4.3BSD 开 始 ) 兽 在 1024 一 
5000 范 围 内 分 配 临时 端口 。 这 在 20 世 纪 80 年 代 初 期 是 可 行 的 ， 但 是 如 今 
很 容易 就 找到 一 个 在 任何 给 定时 间 内 同时 支持 多 于 3977 个 连接 的 主机 。 
于 是 许多 较 新 的 系统 从 另外 的 范围 分 配 临 时 端口 以 提供 更 多 的 临时 端 
口 ， 它 们 或 者 使 用 由 IANA 定义 的 临时 端口 范围 ， 或 者 使 用 一 个 更 大 的 
其 他 范围 (如 图 2-10 所 示 的 Solaris〉。 














IANA IANA 动态 
众所周知 端口 IANA 注册 的 端口 或 私 用 端口 
1 1023 1024 49151 49152 65535 
rë stë BSD 临 时 端口 BSD 服 务 器 (非特 权 ) 
1023 1024 5000 5001 65535 
rresvport SolarisI 临 时 端口 
513 1023 32768 65535 


图 2-10 端口 号 的 分 配 


由 于 这 个 原因 ， 许 多 较 早 的 系统 实现 的 临时 端口 范围 的 上 限 为 5 








000. 5 000 这 个 上 限 后 来 发 现 是 一 个 排版 错误 [Borman 1997a] ， 本 应 
该 是 50 000。 

有 少数 客户 (而 不 是 服务 器 〉 需 要 一 个 保留 端口 用 于 客户 /服务 器 
的 认证 : rlogin 和 rsh 客 户 就 是 常见 的 例子 。 这 些 客户 调用 库 疯 数 
Iresvport 创 建 一 个 ITCP 套 接 字 ， 并 赋予 它 一 个 在 513 一 1023 范 围 内 未 使 用 
的 端口 。 该 函数 通常 先 尝 试 绑 定 端口 1023， 若 失败 则 尝试 1022， 依 次 类 
推 ， 直 到 在 端口 513 上 亦 或 成 功 ， 亦 或 失败 。 

注意 : BSD 的 保留 端口 和 rresvport 函 数 都 跟 IANA 众 所 周知 端口 的 后 
半 部 分 重 登 。 这 是 因为 IANA 众所周知 端口 早先 的 上 限 为 255。1992 年 的 
REC 1340 (早先 的 一 个 “Assigned Numbers”RFC) 开始 在 256 一 1023 之 间 
分 配 众所周知 的 端口 。1990 年 的 RFC ”1060“〈 更 早先 的 一 个 “Assigned 
Numbers”RFC) 称 256 一 1023 之 间 的 端口 为 Unix 标 准 服务 (Unix 
Standard Services) 。20 世 纪 80 年 代 有 不 少 源 自 Berkeley 的 服务 器 在 512 
以 后 挑选 它们 的 众所周知 的 端口 〈 留 下 256 一 511 这 个 空挡 ) . rresvport 
函数 选择 从 1023 开 始 往 下 寻找 ， 直 人 至 513。 

套 接 字 对 

一 个 TCP 连 接 的 套 接 字 对 (socket pair) 是 一 个 定义 该 连接 的 两 个 端 
点 的 四 元 组 : 本 地 IP 地 址 、 本 地 TCP 端 口号 、 外 地 IP 地 址 、 外 地 TCP 端 
口号 。 套 接 字 对 唯一 标识 一 个 网 络 上 的 每 个 TCP 连 接 。 就 SCTP 而 言 ， 
一 个 关联 由 一 组 本 地 IP 地 址 、 一 个 本 地 端口 、 一 组 外 地 IP 地 址 、 一 个 外 
地 端口 标识 。 在 两 个 端点 均 非 多 宿 这 一 最 简单 的 情形 下 ，SCTP 与 TCP 
所 用 的 四 元 组 套 接 字 对 一 致 。 然 而 在 某 个 关联 的 任何 一 个 端点 为 多 宿 的 
情形 下 ， 同 一 个 关联 可 能 需要 多 个 四 元 组 标识 (这 些 四 元 组 的 IP 地 址 各 
不 相同 ， 但 端口 号 是 一 样 的 ) 。 

标识 每 个 端点 的 两 个 值 (IP 地 址 和 端口 号 ) 通常 称 为 一 个 套 接 字 。 

我 们 可 以 把 套 接 字 对 的 概念 扩展 到 UDP， 即 使 UDP 是 无 连接 的 。 当 
讲解 套 接 字 函数 (bind、connect、getpeername 等 ) 时 ， 我 们 将 指明 它们 




















在 指定 套 接 字 对 中 的 哪些 值 。 举 例 来 说 ，bind 函 数 要 求 应 用 程序 给 
TCP、UDP 或 SCTP 套 接 字 指定 本 地 IP 地 址 和 本 地 端口 号 。 
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并 发 服务 器 中 主 服务 器 循环 通过 派生 一 个 子 进程 来 处 理 每 个 新 的 连 
接 。 如 果 一 个 子 进程 继续 使 用 服务 器 众所周知 的 端口 来 服务 一 个 长 时 间 
的 请 求 ， 那 将 发 生 什么 ?让 我 们 来 看 一 个 典型 的 序列 。 首 先 ， 在 主机 
freebsd 上 启动 服务 器 ， 该 主机 是 多 窒 的 ， 其 IP 地 址 为 12.106.32.254 和 
192.168.42.1。 服 务 器 在 它 的 众所周知 的 端口 (本 例 为 21) 上 执行 被 动 
打开 ， 从 而 开始 等 待 客户 的 请 求 ， 如 图 2-11 所 示 。 


T2 LU. 34.23% 
192.168.42.1 


u in E 
| | 
| | 
| 服务 器 | 
| | 
| (1:21, *:*} 一 一 > 监听 套 接 字 
| | 
dz aa i cone - 


图 2-11 TCP 服 务 器 在 端口 21 上 执行 被 动 打开 

我 们 使 用 记号 {*:21，*:*} 指 出 服务 占 的 套 接 字 对 。 服 务 器 在 任意 本 
地 接口 (第 一 个 星 写 ) 的 端口 21 上 等 竺 连接 请 求 。 外 地 卫 地 址 和 外 地 端 
口 都 没有 指定 ， 我 们 用 “*.*" 来 表示 。 我 们 称 它 为 监听 套 接 字 (listening 
socket) 。 

我 们 用 分 写 来 分 割 P 地 址 和 端口 号 ， 因 为 这 是 HTTP 的 用 法 ， 其 他 
地 方 也 和 常见。netstat 程 序 使 用 点 号 来 分 割 IP 地 址 和 病 口 号 ， 不 过 如 此 表 
示 有 时 候 会 让 人 混 涌 ， 因 为 点 号 既 用 于 域名 《如 





freebsd.unpbook.com.21) ， 也 用 于 IPv4 的 点 分 十 进 制 数 记 法 《如 
12.106.32. 254.21) 。 

这 里 指定 本 地 IP 地 址 的 星 号 称 为 通 配 Cwildcard) 符 。 如 果 运 行 服 
务 器 的 主机 是 多 和 窒 的 (如 本 例 ) ， 服 务 器 可 以 指定 它 只 接受 到 达 某 个 特 
定 本 地 接口 的 外 来 连接 。 这 里 要 么 选 一 个 接口 要 么 选任 意 接 口 。 服 务 器 
不 能 指定 一 个 包含 多 个 地 址 的 清单 。 通 配 的 本 地 地 址 表示 “任意 ”这 个 选 
择 。 在 图 1-9 中 ， 通 配 地 址 通过 在 调用 bind 之 前 把 套 接 字 地 址 结构 中 的 卫 
地 址 字段 设置 成 INADDR_ANY 来 指定 。 

稍 后 在 IP 地 址 为 206.168.112.219 的 主机 上 启动 第 一 个 客户 ， 它 对 服 
务 器 的 IP 地 址 之 一 12.106.32.254 执 行 主动 打开 。 我 们 假设 本 例 中 客户 主 
机 的 TCP 为 此 选择 的 临时 端口 为 1500， 如 图 2-12 所 示 。 图 中 在 该 客户 的 
下 方 标 出 了 它 的 套 接 字 对 。 
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图 2-12 客户 对 服务 器 的 连接 请 求 

当 服 务 器 接收 并 接受 这 个 客户 的 连接 时 ， 它 fork 一 个 自 喘 的 副本 ， 
让 子 进程 来 处 理 该 客户 的 请 求 ， 如 图 2-13 所 示 。“〔 我 们 将 在 4.7 节 中 讲解 
fork. ) 

至 此 ， 我 们 必须 在 服务 器 主机 上 区 分 监听 套 接 字 和 已 连接 套 接 字 
(connected socket) 。 注 意 已 连接 套 接 字 使 用 与 监听 套 接 字 相 同 的 本 地 
mO (21) 。 还 要 注意 在 多 宿 服 务 器 主机 上 ， 连 接 一 旦 建立 ， 已 连接 套 
接 字 的 本 地 地 址 (12.106.32.254) PERMAN. 
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12.106.32.254:21) 








fork 


服务 器 
( 子 进程 ) 
{12.106.32.254:21， 一 -> 已 连接 套 接 字 
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图 2-13 并 发 服务 器 让 子 进程 处 理 客户 
下 一 步 我 们 假设 在 客户 主机 上 另 有 一 个 客户 请 求 连接 到 同一 个 服务 
器 。 客 户主 机 的 TCP 为 这 个 新 客户 的 套 接 字 分 配 一 个 未 使 用 的 临时 端 
口 ， 璧 如 说 1501， 如 图 2-14 所 示 。 服 务 器 上 这 两 个 连接 是 有 区 别 的 : 第 
一 个 连接 的 套 接 字 对 和 第 二 个 连接 的 套 接 字 对 不 一 样 ， 因 为 客户 的 TCP 
给 第 二 个 连接 选择 了 一 个 未 使 用 的 端口 〈1501) o 
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( 子 进程 2) 
{12.106.32.254:21, —————+-» 已 连接 套 接 字 
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图 2-14 第 二 个 客户 与 同一 个 服务 器 的 连接 

通过 本 例 应 注意 ，TCP 无 法 仅仅 通过 查看 目的 端口 号 来 分 离 外 来 的 

分 布 到 不 同 的 端 氮 。 它 必须 碍 看 套 接 字 对 的 所 有 4 个 元 素 才 能 确定 由 哪 
个 端点 接收 某 个 到 达 的 分 节 。 图 2-14 中 对 于 同一 个 本 地 端口 〈21) 存在 








3 个 套 接 字 。 如 果 一 个 分 节 来 自 206.168.112.219 端 口 1500， 目 的 地 为 
12.106.32.254 端 口 21， 它 就 被 递送 给 第 一 个 子 进程 。 如 果 一 个 分 节 来 自 
206.168.112.219 端 口 1501， 目 的 地 为 12.106.32.254 端 口 21， 它 就 被 递送 
给 第 二 个 子 进程 。 所 有 目的 端口 为 21 的 其 他 TCP 分 节 都 被 递送 给 拥有 监 
听 套 接 字 的 最 初 那个 服务 器 〈 父 进程 ) 。 
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下 面 我 们 将 介绍 一 些 影响 卫 数 据 报 大 小 的 限制 。 我 们 首先 介绍 这 些 
限制 ， 然 后 就 它们 如 何 影响 应 用 进程 能 够 传送 的 数据 进行 综合 分 析 。 

IPv4 数 据 报 的 最 大 大 小 是 65 535 字 节 ， 包 括 IPv4 首 部 。 这 是 因为 如 
图 A-1 所 示 其 总 长 度 字段 占据 16 位 。 

IPv6 数 据 报 的 最 大 大 小 是 65 575 字 节 ， 包 括 40 字 节 的 IPv6 首 部 。 这 
KË SA SIA-2 Pn Basha KË ETJE 16hL6 VER, IPVGËR I ir E PË 
字段 不 包括 IPv6 首 部 ， 而 IPv4 的 总 长 度 字段 包括 IPv4 首 部 。 

IPv6 — NERA i (jumbo payload) 选项 ， 它 把 兆 丛 长 度 字 有 段 扩 
展 到 32 位 ， 不 过 这 个 选项 需要 MTU (maximum transmission unit, EN 
传输 单元 ) 超过 65 535 的 数据 链 路 提供 支持 。 (这 是 为 主机 到 主机 的 内 
部 连接 而 设计 的 ， 壁 如 HIPPI， 它 们 通常 没有 内 在 的 MTU。) 

许多 网 络 有 一 个 可 由 硬件 规定 的 MTU。 举 例 来 说 ， 以 太 网 的 MTU 
是 1500 字 节 。 另 有 一 些 链 路 〈 例 如 使 用 PPP 协 议 的 点 到 点 链 路 ) 其 MTU 
可 以 人 为 配置 。 较 老 的 SLIP 链 路 通常 使 用 1006 字 节 或 296 字 市 的 MTU。 

IPv4 要 求 的 最 小 链 路 MTU 是 68 字 节 。 这 人 允许 最 大 的 IPv4 首 部 〈 包 括 
20 字 节 的 固定 长 度 部 分 和 最 多 40 字 节 的 选项 部 分 ) 拼接 最 小 的 片段 
CIPv4 首 部 中 所 段 偏 移 字 段 以 8 个 字 节 为 单位 ) 。IPv6 要 求 的 最 小 链 路 
MTU 为 1280 字 节 。IPv6 可 以 运行 在 MTU 小 于 此 最 小 值 的 链 路 上 ， 不 过 
需要 特定 于 链 路 的 分 片 和 重组 功能 ， 以 使 得 这 些 链 路 看 起 来 具有 至 少 为 














1280 字 节 的 MTU (RFC 2460 [ Deering and Hinden 1998] > . 

在 两 个 主机 之 间 的 路 径 中 最 小 的 MTU 称 为 路 径 MTU (path 
MTU) 。1500 字 节 的 以 太 网 MTU 是 当今 溃 见 的 路 径 MTU。 两 个 主机 之 
间 相 反 的 两 个 方向 上 路 径 MTU 可 以 不 一 致 ， 因 为 在 因特网 中 路 由 选择 
往往 是 不 对 称 的 [Paxson 1196] ， 也 就 是 说 从 A 到 B 的 路 径 与 从 B 到 A 的 
路 径 可 以 不 相同 。 

当 一 个 IP 数 据 报 将 从 某 个 接口 送出 时 ， 如 果 它 的 大 小 超过 相应 链 路 
的 MTU，IPv4 和 IPv6 都 将 执行 分 片 (fragmentation) 。 这 些 片 段 在 到 达 
最 终日 的 地 之 前 通常 不 会 被 重组 (reassembling) 。IPv4 主 机 对 其 产生 的 
数据 报 执行 分 片 ，IPV4 路 由 器 则 对 其 转发 的 数据 报 执行 分 片 。 然 而 IPv6 
只 有 主机 对 其 产生 的 数据 报 执 行 分 片 ，IPv6 路 由 器 不 对 其 转发 的 数据 报 
执行 分 片 。 

我 们 必须 小 心 这 些 术 语 的 使 用 。 一 个 标记 为 IPv6 路 由 器 的 设备 可 能 
执行 分 片 ， 不 过 只 是 对 于 那些 由 它 产生 的 数据 报 ， 而 绝 不 是 对 于 那些 由 
它 转发 的 数据 报 。 当 该 设备 产生 IPv6 数 据 报时 ， 它 实际 上 作为 主机 运 
作 。 举 例 来 说 ， 大 多 数 路 由 器 支持 Telnet 协 议 ， 管 理 员 就 用 它 来 配置 路 
由 器 。 由 路 由 器 的 Telnet 服 务 器 产生 的 IP 数 据 报 是 由 路 由 器 产生 的 ， 而 
不 是 由 路 由 器 转发 的 。 

你 可 能 注意 到 ，IPv4 首 部 〈 图 A-1) 有 用 于 处 理 IPv4 分 片 的 字段 ， 
IPV6 首 部 《图 A-2)〉 却 没有 类 似 的 字段 。 既 然 分 片 是 例外 情况 而 不 是 通 
第 情况 ，IPv6 于 是 引入 一 个 可 选 首部 以 提供 分 片 信息 。 

某 些 通常 用 作 路 由 器 的 防火 墙 可 能 会 重组 分 片 了 的 分 组 ， 以 便 查 看 
整个 IP 数 据 报 的 内 容 。 这 样 做 使 得 不 必 在 防火 墙 上 引入 额外 的 复杂 性 就 
能 够 防止 某 些 攻击 。 它 还 要 求 防火 墙 设备 是 进出 网 络 的 唯一 路 径 上 的 设 
备 ， 从 而 减少 了 元 余 的 机 会 。 

IPv4 首 部 《图 A-1) 的 “不 分 片 (don't fragment) ”位 《〈 即 DF 位 ) Æ 
被 设置 ， 那 么 不 管 是 发 送 这 些 数据 报 的 主机 还 是 转发 它们 的 路 由 器 ， 都 














不 允许 对 它们 分 片 。 当 路 由 器 接收 到 一 个 超过 其 外 出 链 路 MTU 大 小 且 
设置 了 DF 位 的 IPv4 数 据 报时 ， 它 将 产生 一 个 ICMPv4“destination 
unreachable, fragmentation needed but DF bit set” (目的 地 不 可 达 ， 需 分 片 
但 DF 位 已 设置 ) 出 错 消息 (图 A-15) 。 

既然 IPv6 路 由 器 不 执行 分 片 ， 每 个 IPv6 数 据 报 于 是 隐 含 一 个 DF 位 。 
当 IPV6 路 由 器 接收 到 一 个 超过 其 外 出 链 路 MTU 大 小 的 IPv6 数 据 报时 ， 它 
将 产生 一 个 ICMPv6“packet too big” (TARK) 出 错 消 息 (图 A-16) o 

IPv4 的 DF 位 和 IPv6 的 隐 含 DF 位 可 用 于 路 径 MTU 发 现 《〈IPv4 的 情形 
见 RFC 1191 [Mogul and Deering 1990] ，IPv6 的 情形 见 RFC 
1981 L McCann, Deering, and Mogul 1996] > 。 举 例 来 说 ， 如 果 基 于 IPv4 
的 TCP 使 用 该 技术 ， 那 么 它 将 在 所 发 送 的 所 有 数据 报 中 设置 DF 位 。 如 果 
某 个 中 间 路 由 器 返回 一 个 ICMP“destination unreachable, fragmentation 
needed but DF bit set” 错 误 ，TCP 束 减 小 每 个 数据 报 的 数据 量 并 重 传 。 中 8 
径 MTU 发 现 对 于 IPv4 是 可 选 的 ， 然 而 IPv6 的 所 有 实现 要 么 必须 支持 它 ， 
要 么 必须 总 是 使 用 最 小 的 MTU 发 送 IPv6 数 据 报 。 

路 径 MTU 发 现在 如 今 的 因特网 上 是 有 问题 的 ， 许 多 防火 墙 丢 弃 所 
有 ICMP 消 息 ， 包 括 用 于 路 径 MTU 发 现 的 上 述 消 息 。 这 意味 着 TCP 永 远 
得 不 到 要 求 它 降低 所 发 送 数据 量 的 信 写 。 编 写本 书 时 ，IETF 已 经 开始 演 
试 定 义 不 依 赖 于 ICMP 出 错 消息 的 另 一 种 路 径 MTU 人 发现 方法 。 

IPvV4 和 IPv6 都 定义 了 最 小 重组 绥 冲 区 大 小 (minimum reassembly 
buffer size) ， 它 是 IPv4 或 IPv6 的 任何 实现 都 必须 保证 文 持 的 最 小 数据 报 
大 小 。 其 值 对 于 IPv4 为 576 字 市 ， 对 于 IPv6 为 1500 字 市 。 例 如 ， 束 IPv4 而 
言 ， 我 们 不 能 判定 某 个 给 定 目 的 地 能 否 接受 577 字 节 的 数据 报 。 为 此 有 
许多 使 用 UDP 的 IPv4 网 络 应 用 (如 DNS、RIP、TFTP、BOOTP、 
SNMP) 避免 产生 大 于 这 个 大 小 的 数据 报 。 

TCP 有 一 个 MSS (maximum segment size, RATA) ， 用 于 
问 对 端 TCP 通 告 对 端 在 每 个 分 节 中 能 发 送 的 最 大 TCP 数 据 量 。 在 图 2-5 中 








我 们 看 到 过 SYN 分 节 上 的 MSS 选 项 。MSS 的 目的 是 告诉 对 端 其 重组 缓冲 
区 大 小 的 实际 值 ， 从 而 试图 避免 分 片 。MSS 经 常设 置 成 MTU 减 去 IP 和 
TCP 首 部 的 固定 长 度 。 在 以 太 网 中 使 用 IPv4 的 MSS 值 为 1460， 使 用 IPv6 
的 MSS 值 为 1440《〈 两 者 的 TCP 首 部 都 是 20 个 字 节 ， 但 IPv4 首 部 是 20 字 
节 ，IPv6 首 部 却 是 40 字 节 ) 。 在 TCP 的 MSS 选 项 中 ，MSS 值 是 一 个 16 位 
的 字段 ， 限 定 其 最 大 值 为 65 535。 这 对 于 IPv4 是 适合 的 ， 因 为 IPv4 数 据 
报 中 的 最 大 TCP 数 据 量 为 65 495 (65 535 减 去 IPv4 首 部 的 20 字 节 和 TCP 首 
部 的 20 字 节 ) 。 然 而 对 于 具有 特大 净 衙 选项 的 IPvV6， 却 需要 使 用 男 外 一 
种 技巧 (RFC 2675 [ Borman, Deering, and Hinden 1999] ) . 2%, X 
Ay AF REDEN IP 64 HR TCP E65 515 (65 535%% 
去 TCP 首 部 的 20 字 节 ) . 65 535 这 个 MSS 值 于 是 被 视 为 表示 “无 限 ” 的 一 
个 特殊 值 。 该 值 只 在 用 到 特大 净 荷 选项 时 才 使 用 ， 不 过 这 种 情况 却 要 求 
实际 的 MTU 超 过 65 535. HK, MRT CPE AEM, J A eu 
到 的 对 端 通告 的 MSS 为 65 535， 那 么 它 所 发 送 数据 报 的 大 小 限制 就 是 接 
口 MTU。 如 果 这 个 值 太 大 也 就 是 说 所 在 路 径 中 某 个 链 路 的 MTU 比 较 
小 ) ， 那 么 路 径 MTU 发 现 功能 将 确定 这 个 较 小 值 。 

SCTP 基 于 到 对 端 所 有 地 址 发 现 的 最 小 路 径 MTU 保 持 一 个 分 片 点 。 
这 个 最 小 MITU 大 小 用 于 把 较 大 的 用 户 消 息 分 割 成 较 小 的 能 够 以 单个 卫 数 
据 报 发 送 的 若干 片段 。SCTP_MAXSEG 套 接 字 选项 可 以 影响 该 值 ， 使 得 
用 户 能 够 请 求 一 个 更 小 的 分 片 点 。 

2.11.1 TCP 输 出 

图 2-15 展 示 了 某 个 应 用 进程 写 数据 到 一 个 TCP 套 接 字 中 时 发 生 的 步 

















每 一 个 TCP 套 接 字 有 一 个 发 送 缓冲 区 ， 我 们 可 以 使 用 SO_SNDBUF 
套 接 字 选 项 来 更 改 该 缓冲 区 的 大 小 〈 见 7.5 节 ) 。 当 茶 个 应 用 进程 调用 
write 时 ， 内 核 从 该 应 用 进程 的 缓冲 区 中 复制 所 有 数据 到 所 写 套 接 字 的 发 
送 缓冲 区 。 如 采 该 套 接 字 的 发 送 缓冲 区 容 不 下 该 应 用 进程 的 所 有 数据 








《或 是 应 用 进程 的 缓冲 区 大 于 套 接 字 的 发 送 缓冲 区 ， 或 是 套 接 字 的 发 送 
缓冲 区 中 已 有 其 他 数据 ) ， 该 应 用 进程 将 被 投入 睡眠 。 这 里 假设 该 套 接 
字 是 阻塞 的 ， 它 是 通常 的 默认 设置 。〈 我 们 将 在 第 16 章 中 阐述 非 阻塞 的 
套 接 字 。) 内 核 将 不 从 write 系统 调用 返回 ， 直 到 应 用 进程 缓冲 区 中 的 所 
有 数据 都 复制 到 套 接 字 发 送 缓冲 区 。 因 此 ， 从 写 一 个 TCP 套 接 字 的 write 
调用 成 功 返 回 仅仅 表示 我 们 可 以 重新 使 用 原来 的 应 用 进程 缓冲 区 ， 并 不 
表明 对 端的 TCP 或 应 用 进程 已 接收 到 数据 。( 我 们 将 在 7.5 市 随 
SO_LINGER 套 接 字 选项 详细 讨论 这 一 点 。) 
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图 2-15 应 用 进程 写 TCP 套 接 字 时 涉及 的 步骤 和 缓冲 区 

这 一 端的 TCP 提 取 套 接 字 发 送 缓冲 区 中 的 数据 并 把 它 发 送 给 对 端 
TCP， 其 过 程 基 于 TCP 数 据 传 送 的 所 有 规则 〈TCPv1 的 第 19 章 和 第 20 
章 ) 。 对 端 TCP 必 须 确认 收 到 的 数据 ， 伴 随 来 自 对 端的 ACK 的 不 断 到 
达 ， 本 端 TCP 至 此 才能 从 套 接 字 发 送 缓冲 区 中 丢弃 已 确认 的 数据 。TCP 








必须 为 已 发 送 的 数据 保留 一 个 副本 ， 直 到 它 被 对 端 确 认为 止 。 

本 端 TCP 以 MSS 大 小 的 或 更 小 的 块 把 数据 传递 给 卫 ， 同 时 给 每 个 数 
据 块 安 上 一 个 TCP 首 部 以 构成 TCP 分 节 ， 其 中 MSS 或 是 由 对 端 通告 的 
值 ， 或 是 536 〈 若 对 端 未 发 送 一 个 MSS 选 项 ) 。 〈536 是 IPv4 最 小 重组 组 
冲 区 字 节 数 576 减 去 IPv4 首 部 字 节 数 20 和 TCP 首 部 字 节 数 20 的 结果 。) IP 
给 每 个 TCP 分 节 安 上 一 个 IP 首 部 以 构成 IP 数 据 报 ， 并 按照 其 目的 IP 地 址 
查找 路 由 表 项 以 确定 外 出 接口 ， 然 后 把 数据 报 传递 给 相应 的 数据 链 路 。 
IP 可 能 在 把 数据 报 传递 给 数据 链 路 之 前 将 其 分 片 ， 不 过 我 们 已 经 谈 到 
MSS 选 项 的 目的 之 一 就 是 试图 避免 分 片 ， 较 新 的 实现 还 使 用 了 路 径 
MTU 友 现 功能 。 每 个 数据 链 路 都 有 一 个 输出 队列 ， 如 果 该 队列 已 满 ， 
那么 新 到 的 分 组 将 被 丢弃 ， 并 沿 协议 栈 向 上 返回 一 个 错误 : 从 数据 链 路 
到 IP， 再 从 IP 到 TCP。TCP 将 注意 到 这 个 错误 ， 并 在 以 后 某 个 时 刻 重 传 
相应 的 分 节 。 应 用 进程 并 不 知道 这 种 暂时 的 情况 。 

2.11.2 UDP 输 出 

图 2-16 展 示 了 某 个 应 用 进程 写 数据 到 一 个 UDP 套 接 字 中 时 发 生 的 步 

















TO UREA VA Me A AE EN EB RIE, AVA ESE ns EDP AME 
TE. TUDE RES AVA RER KA ANA WAX SO_LSNDBUF 
套 接 字 选 项 更 改 它 ， 见 7.5 节 ) ， 不 过 它 仅 仅 是 可 写 到 该 套 接 字 的 UDP 
数据 报 的 大 小 上 限 。 如 果 一 个 应 用 进程 写 一 个 大 于 套 接 字 发 送 缓冲 区 大 
小 的 数据 报 ， 内 核 将 返回 该 进程 一 个 EMSGSIZE 错 误 。 既 然 UDP 是 不 可 
靠 的 ， 它 不 必 保 存 应 用 进程 数据 的 一 个 副本 ， 因 此 无 需 一 个 真正 的 发 送 
缓冲 区 。 “应 用 进程 的 数据 在 沿 协议 栈 向 下 传递 时 ， 通 常 被 复制 到 某 种 
格式 的 一 个 内 核 缓冲 区 中 ， 然 而 当 该 数据 被 发 送 之 后 ， 这 个 副本 就 被 数 
据 链 路 层 丢 弃 了 。) 
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图 2-16 应 用 进程 号 UDP 套 接 字 时 涉及 的 步骤 与 缓冲 区 

这 一 问 的 UDP 简单 地 给 来 自用 户 的 数据 报 安 上 它 的 8 字 节 的 首部 以 
构成 UDP 数据 报 ， 然 后 传递 给 卫 。IPv4 或 IPv6 给 UDP 数据 报 安 上 相应 的 
IP 首 部 以 构成 卫 数 据 报 ， 执 行路 由 操作 确定 外 出 接口 ， 然 后 或 者 直接 把 
数据 报 加 入 数据 链 路 层 输出 队列 《如 果 适 合 于 MTU ) ， 或 者 分 片 后 再 
把 每 个 片段 加 入 数据 链 路 层 的 输出 队列 。 如 果 某 个 UDP 应 用 进程 发 送 大 
数据 报 〈 壁 如 说 2000 字 节 的 数据 报 )， 那 么 它们 相 比 TCP 应 用 数据 更 有 
可 能 被 分 片 ， 因 为 TCP 会 把 应 用 数据 划分 成 MSS 大 小 的 块 ， 而 UDP 却 没 
有 对 等 的 手段 。 

从 写 一 个 UDP 套 接 字 的 write 调 用 成 功 返 回 表示 所 写 的 数据 报 或 其 所 
有 片段 已 被 加 入 数据 链 路 层 的 输出 队列 。 如 果 该 队列 没有 足够 的 空间 存 








放 该 数据 报 或 它 的 某 个 片段 ， 内 核 通 常会 返回 一 个 ENOBUFS 错 误 给 它 
的 应 用 进程 。 

不 幸 的 是 ， 有 些 UDP 的 实现 不 返回 这 种 错误 ， 这 样 甚至 数据 报 未 经 
发 送 就 被 丢弃 的 情况 应 用 进程 也 不 知道 。 

2.11.3 SCTP 输 出 

图 2-17 展 示 了 某 个 应 用 进程 写 数据 到 一 个 SCTP 套 接 字 中 时 发 生 的 
步骤 。 

既然 SCTP 是 与 TCP 类 似 的 可 靠 协 议 ， 它 的 套 接 字 也 有 一 个 发 送 组 
冲 区 ， 而 且 跟 TCP 一 样 ， 我 们 可 以 用 SO_SNDBUF 套 接 字 选项 来 更 改 这 
个 缓冲 区 的 大 小 〈 见 7.5 节 ) 。 当 一 个 应 用 进程 调用 write 时 ， 内 核 从 该 
应 用 进程 的 缓冲 区 中 复制 所 有 数据 到 所 写 套 接 字 的 发 送 缓冲 区 。 如 果 议 
套 接 字 的 发 送 缓冲 区 容 不 下 该 应 用 进程 的 所 有 数据 〈 或 是 应 用 进程 的 组 
冲 区 大 于 套 接 字 的 发 送 缓冲 区 ， 或 是 套 接 字 的 发 送 缓冲 区 中 已 有 其 他 数 
据 ) ， 应 用 进程 将 被 投入 睡眠 。 这 里 假设 该 套 接 字 是 阻塞 的 ， 它 是 通常 
的 默认 设置 。 《我 们 将 在 第 16 章 中 前 述 非 阻 堵 的 套 接 字 。) 内核 将 不 从 
write 系统 调用 返回 ， 直 到 应 用 进程 缓冲 区 中 的 所 有 数据 都 复制 到 套 接 字 
发 送 缓冲 区 。 因 此 ， 从 写 一 个 SCTP 套 接 字 的 write 调用 成 功 返 回 仅仅 表 
示 我 们 可 以 重新 使 用 原来 的 应 用 进程 缓冲 区 ， 并 不 表明 对 端的 SCTP 或 
应 用 进程 已 接收 到 数据 。 
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图 2-17 应 用 进程 写 SCTP 套 接 字 时 涉及 的 步骤 和 缓冲 区 
这 一 端的 SCTP 提 取 套 接 字 发 送 缓冲 区 的 数据 并 把 它 发 送 给 对 端 
SCTP， 其 过 程 基于 SCTP 数 据 传送 的 所 有 规则 《数据 传送 的 细节 见 
[Stewart and Xie 2001] 的 第 5 章 ) 。 本 端 SCTP 必 须 等 待 SACK， 在 累 
积 确认 点 超过 已 发 送 的 数据 后 ， 才 可 以 从 套 接 字 绥 冲 区 中 删除 该 数据 。 








2.12 标准 因特网 服务 


图 2-18 列 出 了 TCP/AP 多 数 实 现 都 提供 的 知 干 标准 服务 。 注 意 ， 表 中 
所 有 服务 同时 使 用 TCP 和 UDP 提供 ， 并 且 这 两 个 协议 所 用 端口 号 也 相 
Al. 

这 些 服务 通常 由 Unix 主 机 的 inetd 守 护 进程 提供 《〈 见 13.5 节 ) o EN 
还 提供 使 用 标准 的 Telnet 客 户 程序 就 能 完成 的 简易 测试 机 制 。 举 例 来 
说 ， 下 面 就 是 时 间 获 取 和 回 射 这 两 个 标准 服务 器 的 测试 过 程 : 











aix % telnet freebsd daytime 
Trying 12.106.32.254... 


Connected to freebsd.unpbook.com. 


Escape character is '\]'. 

Mon Jul 28 11:56:22 2003 

Connection closed by foreign host. 
关闭 连接 ) 

aix % telnet freebsd echo 

Trying 12.106.32.254... 


Connected to freebsd.unpbook.com. 


Escape character is 人 人 ] . 
hello,world 
hello,world 

St TB] IR 
^] 

UJ ES Telnet 22 ik 
telnet> quit 

测试 完毕 
Connection closed. 


闭 连 接 


Telnet 客 户 输出 
Telnet 客 户 输出 
Telnet 客 户 输出 
daytime 服 务 器 输出 
Telnet 和 客户 输出 (服务 器 


Telnet 客 户 输 出 
Telnet 客 户 输出 
Telnet 客 户 输出 
我 们 键入 这 行 
它 由 服务 器 回 


键入 Ctrl+] 


告诉 客户 我 们 已 


这 次 客户 上 自己 关 


+ pp oe 


echo (EI$) 服务 器 返回 客户 发 送 的 数据 

discard (AF) 服务 器 废弃 客户 发 送 的 数据 

daytime (时 间 获 取 ) 服务 器 返回 直观 可 读 的 日 期 和 时 间 
chargen (字符 生成 ) S TCP 服 务 器 发 送 连续 的 字符 流 ， 直 到 客 


户 终 止 连接 。UDP 服 务 器 则 每 当 客 户 发 送 
-个 数据 报 就 返 送 一 个 包含 随机 数量 
(0~512) 字符 的 数据 报 
time 〈 流 逝 时 间 获 取 ) 服务 器 返回 一 个 32 位 二 进 制 数值 表 示 
的 时 间 。 这 个 数值 表示 从 1900 年 1 月 1 日 子 
IN CUTCIN TA) 以 来 所 流逝 的 秒 数 


图 2-18 大 多 数 实现 提供 的 标准 TCP/IP 服 务 [12] 


在 这 两 个 例子 中 ， 我 们 键入 主机 名 和 服务 名 〈daytime 和 echo) . ix 
些 服 务 名 由 /etc/services 文 件 映射 到 图 2-18 所 示 的 端口 号 ， 详 见 11. 

注意 ， 当 我 们 连接 到 daytime 服 务 器 时 ， 服 务 器 执行 主动 关闭 ， 然 
而 当 连 接 人 到 echo 服 务 嚣 时， 客户 执行 主动 关闭 。 回 顾 图 2-4， apne 
执行 主动 关闭 的 那 一 端 就 是 历经 TTME_WAIT 状 态 的 那 一 端 。 

为 了 应 付 针 对 它们 的 拒绝 服务 攻击 和 其 他 资源 使 用 攻击 ， 在 如 今 的 
系统 中 ， 这 些 简单 的 服务 通常 被 禁 
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2.13 Së WERNE ID 


图 2-19 总 结 了 各 种 常见 的 因特网 应 用 对 协议 的 使 用 情况 。 
前 两 个 因特网 应 用 ping 和 traceroute 是 使 用 ICMP 协 议 实现 的 网 络 诊 
断 应 用 。traceroute 目 行 构造 UDP 分 组 来 发 送 并 读 取 所 引发 的 ICMP 应 


e, 
REREITN 行 的 路 由 协议 ， 它 们 展示 了 路 由 协议 使 用 的 各 种 传 
输 协 议 。OSPF 通 过 原始 套 接 字 直接 使 用 卫 ，RIP 使 用 UDP，BGP 使 用 


工 CP。 


接 下 来 5 个 是 基于 UDP 的 网 络 应 用 ， 然 后 是 7 个 TCP 网 络 应 用 和 4 个 
同时 使 用 UDP 和 TCP 的 网 络 应 用 ， 最 后 5 个 是 IP 电 话 网 络 应 用 ， 它 们 或 
者 独自 使 用 SCTP， 或 者 选用 UDP、TCP 或 SCTP。 


A |e Tome | upp | Tor | scr 


ping 
traceroute 


OSPF (路 由 协议 ) 

RIP〈 路 由 协议 ) 

BGP (EREN) 
BOOTP (3 引导 协议 ) 
DHCP (引导 协议 ) 

NTP〔 时 间 协 议 ) 

TFTP〈 低 级 FTP) 

SNMP (网 络 管理 ) 
SMTP (电子 邮件 》 
Telnet (远程 登录 ) 

SSH〔 安 全 的 远程 登录 ) 
FTP (文件 传送 ) 

HTTP (Web) 

NNTP (网 络 新 闻 ) 

LPR 远程 打印 ) 

DNS (域名 系统 ) 

NFS (WERA) 
Sun RPC〔 远 程 过 程 调用 ) 
DCE RPC (远程 过 程 调用 )》 
IUA (IP 之 上 的 ISDN) 
M2UA/M3UA (SS7 电 话 信 令 ) 
H.248 媒 体 网 关 控 制 ) 
H.323 (IP 电 话 ) 

SIP (IP 电 话 ) 





图 2-19 各 种 常见 因特网 应 用 的 协议 使 用 情况 


2.14 小 结 


